数据挖掘的分析方法可以分为两类,你们知道是哪两类吗?
数据挖掘(data mining),就是从存放在数据库、数据仓库或其他信息库中的大量的数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程。
在人工智能领域,习惯上又称为数据库中的知识发现(knowledge discovery in database,KDD),也有人把数据挖掘视为数据库中知识发现过程的一个基本步骤。知识发现过程由以下三个阶段组成:①数据准备;②数据挖掘;③结果表达和解释。数据挖掘可以与用户或知识库交互。
并非所有的信息发现任务都被视为数据挖掘。例如,使用数据库管理系统查找个别的记录,或通过互联网的搜索引擎查找特定的Web页面,则是信息检索(information retrieval)领域的任务。虽然这些任务是重要的,可能涉及使用复杂的算法和数据结构,但是它们主要依赖传统的计算机科学技术和数据的明显特征来创建索引结构,从而有效地组织和检索信息。尽管如此,数据挖掘技术也已经用来增强信息检索系统的能力。
数据挖掘的分析方法可以分为两类:直接数据挖掘和间接数据挖掘。
(1)直接数据挖掘:目标是利用可用的数据建立一个模型,这个模型对剩余的数据,即一个特定的变量(可以理解成数据库表的属性,即列)进行描述。
(2)间接数据挖掘:目标中没有选出某具体的变量用模型进行描述,而是在所有的变量中建立起某种关系。