数据挖掘概述

概述

数据挖掘是指通过系统分析从大量数据中提取隐藏于其中的规律, 并用这些规律来预测未来或者指导未来工作的科学。

从技术角度看,数据挖掘是从大量的不完全的有噪声的模糊的随机的,看似杂乱的实际数据中,提取隐含于其中的,人们不知道的,但是潜在有用的信息和知识的过程。这些潜在的信息比如趋势,特征及相关性的问题。

数据挖掘的过程,通常分为三个主要的阶段,数据准备,数据挖掘和结果表达与解释。

  • 数据准备主要是处理数据中的遗漏,缺失。检查数据的完整性一致性,消除噪声,对数据进行预处理,在必要的情况下进行重新编码等。
  • 数据挖掘的阶段主要是利用机器学习以及统计知识进行知识发现。其主要步骤为:
    • 确定挖掘目标,确定要发现的知识类型
    • 根据确定的目标选择合适的挖掘算法
    • 应用算法,提取相关知识并以一定的方式表示
  • 结果表达与解释
    • 模式评估,对发现的知识进行评估
    • 知识表示,利用可视化和知识表示的相关技术,呈现所挖掘的知识。如果结果不能令决策者满意,那么需要重复上面的挖掘过程。

 

数据挖掘的对象

关系型数据库,数据仓库,空间数据(如地图数据),工程数据,文本和多媒体数据,时间序列数据,万维网数据

数据挖掘的方法

根据挖掘任务,可以分为分类,预测,聚类,关联规则,异常和趋势发现等。

根据挖掘方法,可以分为统计方法和机器学习方法。统计方法中包含回归分析,判别分析,聚类分析等。机器学习包含神经网络,集成学习,遗传算法等。

  • 分类 通过某些数据得到另外的数据,若预测的变量是离散的,这类问题就是分类,如果预测的变量是连续的,这类问题叫回归。用来分类的算法包括决策树,朴素贝叶斯,逻辑回归,神经网络等。
  • 聚类  用于从数据集中找到相似的数据,并形成不同的组。聚类方法包括统计分析方法,神经网络方法等。
  • 关联  当两个或者多个数据项的取值之间重复出现且概率很高时,他就存在某种关联,可以建立起这些数据项的关联规则。这个在商场销售,推荐系统中被广泛应用。
  • 预测  利用历史数据找出变化规律。典型的方法是回归分析。分类也可以用于预测。

数据挖掘的应用

数据挖掘广泛应用于金融,零售,互联网,地理学,地质学,生物医学等领域。

数据挖掘的算法

2006年,在香港举办的年度IEEE数据挖掘国际会议上,与会专家投票选出了在实际中用途最广,影响最大的十大数据挖掘算法,他们是C4.5 , K-means, SVM , Apriori , EM , PageRank, Adaboost , kNN , Naive Bayes和CART. 这里简单介绍一下这些算法

C4.5

C4.5是机器学习算法中的一个分类决策树算法,他是决策核心算法ID3的改进算法。决策树算法是利用信息论原理对大量样本的属性进行分析和归纳而产生。在树的每个节点上使用信息增益来度量选择测试属性,决策树的根节点是所有样本中信息量最大的属性。树的中间节点是以该节点为根的字数所包含的样本子集中信息量最大的属性。

该算法后来继续演化成能处理连续属性的C4.5和C5.0

K-means算法

该算法属于聚类算法,他以k(k<n)为参数,把n个对象分为k个组,每个组内样本具有较高的相似度,而组间相似度较低。该算法的处理过程为,首先随机选取k个对象作为初始的k个组的质心,然后将其与对象根据其与各组质心的距离分配到最近的组,之后重新计算各组的质心。

SVM算法

SVM即支持向量机,是一种监督式学习方法,广泛应用于统计分类及回归分析中。该算法实为在超平面中寻找一个最佳的分割平面,使该平面到两边采样点的最小距离最大。

Apriori算法

这是挖掘布尔关联规则频繁项集的最有影响的算法。

EM算法

即最大期望算法,这是在概率模型中寻找参数最大似然估计的算法。这是一个迭代算法,每次迭代保证似然函数值的增加。

PageRank算法

该算法是google的专利,他根据网站的外链和内链的数量和质量来衡量一个网站的价值。其中的page指的是该算法的发明人Page(拉里.佩奇,Larry Page) ,而不是指网页的意思。

AdaBoost算法

其核心思想是针对同一训练集,训练不同的分类器,然后把这些分类器几何起来,构成一个更强的最终分类器。

kNN算法

全称是k-Nearest Neighbor (K最邻近)分类算法,属于模式识别的统计学方法,也是最好的文本分类算法之一。其思想为,如果一个样本与特征空间中的k个最相似的样本中的大多数属于某一个类别,则该样本也属于这个类别。

朴素贝叶斯算法

这是基于贝叶斯理论的一个分类算法

CART算法

CART(classification and Regression Trees)即分类与回归树算法。是一种非常有趣并且十分有效的非参数分类和回归方法,他通过构件二叉树达到预测目的。

 

数据挖掘的工具—R

目前市面上有很多商用的数据挖掘工具,比如SAS,SPSS , 以及微软和oracle开发的一些数据挖掘工具,这里关注的是一个开源的工具R。 R是用于统计和图形化的计算机语言及分析工具。具有强大的数据统计功能,上百个成熟的开发包可供使用。

 

 



本文地址: http://www.bagualu.net/wordpress/archives/4908 转载请注明




发表评论

电子邮件地址不会被公开。 必填项已用*标注