数据挖掘综述

数据挖掘综述
王梦雪
（成都理工大学，四川成都６１００５９）
摘　要：随着计算机技术的迅猛发展，数据挖掘技术越来越受到世界的关注。从数据挖掘的概念出发，介绍了数据挖
掘的对象、功能及其挖掘过程，结合数据挖掘的几种常见挖掘算法：决策树法、关联规则法和神经网络法等，对其主要
思想及其改进做了相关描述；总结了国内外数据挖掘的研究现状和应用，指出了数据挖掘的发展趋势。
关键词：数据挖掘；决策树法；关联规则法；神经网络法；研究现状；发展趋势
中图分类号：
ＴＰ３９　　　　　文献标识码：
Ａ　　　　　文章编号：
１６７２－７８００（
２０１３）
００１０－０１３５－０３
２　数据挖掘对象
１．
０　引言数据挖掘的对象可以是任何类型的数据源，可以是关
系数据库，此类包含结构化数据的数据源；也可以是数据
数据挖掘作为一个新兴的多学科交叉应用领域，正在仓库、文本、多媒体数据、空间数据、时序数据、Ｗｅｂ数据，
各行各业的决策支持活动中扮演着越来越重要的角色。此类包含半结构化数据甚至是异构型数据的数据源［２］。
随着信息技术的迅速发展，各行各业都积累了海量异构的发现知识的方法可以是数字的、非数字的，也可以是归纳
数据资料。这些数据往往隐含着各种各样有用的信息，仅的，最终被发现了的知识可以用于信息管理、查询优化、决
仅依靠数据库的查询检索机制和统计学方法很难获得这策支持及数据自身的维护等［１］。
些信息，迫切需要将这些数据转化成有用的信息和知识，３　数据挖掘功能
１．
从而达到为决策服务的目的。数据挖掘分析得到的信息目前数据挖掘的主要功能包括概念描述、关联分析、
和知识现在已经得到了广泛的应用，例如商务管理、生产分类、聚类和偏差检测等。概念描述主要用于描述对象内
控制、市场分析、工程设计和科学探索等。数据挖掘是一涵并且概括此对象相关特征，概念描述分为特征性描述和
个多学科领域，它融合了数据库技术、人工智能、机器学区别性描述，特征性描述描述对象的相同特征，区别性描
习、统计学、知识工程、信息检索等最新技术的研究成果。述描述对象的不同特征；关联分析主要用来发现数据库中
本文主要介绍了数据挖掘的几种主要算法及其改进，并对相关的知识以及数据之间的规律，关联分为简单关联、时
国内外的研究现状及研究热点进行了总结，最后指出其发序关联、因果关联；分类和聚类就是根据需要训练相应的
展趋势［
１］
。样本来对数据分类和合并；偏差分析用于对对象中异常数
据的检测。
１　研究背景４　数据挖掘过程
１．
数据挖掘主要分３个阶段：数据准备、数据挖掘、结
１　数据挖掘
１．果的评价和表达。数据准备主要是完成对大量数据的选
目前数据挖掘是人工智能和数据库领域的研究热点，择、净化、推测、转换、数据的缩减，数据准备阶段的工作
数据挖掘是发现数据库中隐含知识的重要步骤。数据挖好坏将影响到数据挖掘的效率和准确度以及最终模式的
掘出现于２０世纪８０年代末，早期主要研究从数据库中发有效性，在数据准备阶段可以消除在挖掘过程中无用的
现知识（
Ｋｎｏｗｌ
ｅｇｄｅ　
Ｄｉｓ
ｃｏｖｅ
ｒｙｉ
　ｎ　
Ｄａｔａｂａ
ｓｅ，ＫＤＤ），数据挖数据，从而提高数据挖掘的效率和准确度；数据挖掘的工
掘的概念源于１９９５年在加拿大召开了第一届知识发现和作首先需要选择相应的挖掘实施算法，例如决策树、分
数据挖掘国际会议［２］。数据挖掘作为一种多学科综合的类、聚类、粗糙集、关联规则、神经网络、遗传算法等，然后
产物，综合利用人工智能、机器学习、模式识别、统计学、数对数据进行分析，从而得到知识的模型；结果评价和表达
据库、可视化技术等，自动分析数据并从中得到潜在隐含主要是确定知识的模式模型是否有效以便发现有意义的
的知识，从而帮助决策者做出合理并正确的决策。模型［３］。
作者简介：王梦雪（
１９８９－），女，成都理工大学信息科学与技术学院硕士研究生，研究方向为计算机网络与技术。
· １３６ · 软件导刊　　　　　　　　　　　　　　　　　　　　　　２０１３年
高Ａｐ
ｒｉｏ
ｒｉ算法的效率，可以减少对数据库的扫描次数或
２　数据挖掘主要方法者减少不必要的频繁项目集的生成［１０］，对Ａｐ
ｒｉｏ
ｒｉ算法的
改进主要方法有：① 基于划分的方法：其基本思想是：对于
１　决策树法
２．整个交易数据库而言，如果一个项集是频繁项集，那么它
决策树法是数据挖掘的分类功能中一种比较常用的必然有这样的结果，即至少在一个分割的部分内它是频繁
方法。决策树法起源于概念学习系统ＣＬＳ，然后发展到的；② 基于抽样的方法：首先从数据库中抽取一个样本并
ＩＤ３方法，
ＩＤ３算法是由Ｑｕｉｎ
ｌａｎ首先提出，该算法是以信生成该样本的候选项集，当然希望这些项集在全局数据库
息论为基础，以信息熵和信息增益度为衡量标准。ＩＤ３算中是频繁的，在接下来的一次扫描中，算法将统计这些项
法的主要思想是：首先计算各属性的信息增益，然后选取集确切的支持度以及负边界的支持度。如果在负边界中
具有最高增益的属性作为给定集合的测试属性。所以造没有一个是频繁的，那么算法将找到所有的频繁项集，否
成ＩＤ３用信息增益选择属性时偏向选择取值多的属性，但则，负边界中的项集有可能是频繁项集；③ 增量更新方法：
是取值多的属性不一定找到最优解，为了克服此问题，出其基本思想是使用该技术来对所发现的频繁项集和相应
现了改进算法———Ｃ４．
５算法
［
４］
。Ｃ４．５算法不但克服了的关联规则进行维护，以便在数据库发生变化时避免对所
ＩＤ３偏向选择取值多的属性这一缺点还实现了对连续属
，有的频繁项集和相应的关联规则重新进行挖掘分析，即只
性的离散化处理和对不完整数据的处理。虽然Ｃ４．
５算对发生变化的那部分数据进行关联分析；④ 概念层次的方
法在速度和预测精度等方面占有优势，但是由于Ｃ４．
５在法；⑤ 基于散列和压缩技术的方法［１１］。所以也有很多学
构造树的过程中，需要对数据集进行多次的顺序扫描和排者对Ａｐｒ
ｉｏｉ算法进行了改进，例如，对Ａｐ
ｒｒｉｏ
ｒｉ的改进算
序，导致该算法在性能方面较为低效。针对Ｃ４．
５算法效法Ａｐ
ｒｉｏ
ｒｄ算法，在Ａｐ
ｉＴｉｒｉｏ
ｒｄ算法中仅在第一次扫描
ｉＴｉ
率不高的问题，很多学者提出了针对改进措施：一种有效时用事务数据库Ｄ计算候选频繁项目集的支持度，其他
的Ｃ４．
５的改进模型Ｒ－Ｃ４．
５，该决策树模型通过合并分各次扫描用上一次扫描生成的候选数据库Ｄ’来计算候选
类较差的分支，减少了无意义的分支进一步的划分，有效频繁项目集的支持度，减少了Ｉ／Ｏ的操作时间，提高了算
避免了碎片的产生，在保持模型预测准确率的同时，有效法的效率［８］，此外，在对Ａｐ
ｒｉｏ
ｒｉ的改进算法中，基于新的
改进了树的健壮性［５］。而从Ｃ４．
５在连续值属性离散化方数据结构和改进了的产生候选集的连接方法，也实现了对
面的局限性来看，Ｃ４．５算法在对连续值属性进行离散化处事物挖掘上优于Ａｐｒｉｏ
ｒｉ算法的效率１２。针对Ａｐ
［］
ｒｉｏ
ｒｉ算
理时，为了找到较好的划分点，５算法需要测试所有潜
Ｃ４．法的固有缺陷，Ｊ．Ｈａｎ等提出了不产生候选挖掘频繁项集
在的划分信息增益，这样就大大降低了该算法分类的效率。的方法：
ＦＰ－ｔｒｅ频集算法。ＦＰ－ｔ
ｅｒ
ｅｅ频集算法采用分而治
基于Ｆａ
ｙｙｄ和Ｉ
ａｒｉ对Ｃ４．
ａｎ５算法的改进，调整了其对连续之的策略，第一遍扫描的过程中把数据库中的频集压缩进
值属性惩罚的基础，指定一个阈值ａ，通过ａ值的判定与增一棵频繁模式树（
ＦＰ－ｔ
ｒｅｅ），同时依然保留其中的关联信
益率的判定，决定是否继续构造节点［６］。此外，考虑到有新息，随后再将ＦＰ－ｔ
ｒｅｅ分化成一些条件库，每个库和一个
样本添加到数据库中的情况，按照Ｃ４．
５算法，需要对所有长度为１的频集相关，然后再对这些条件库分别进行挖
的样本进行重新学习，这样会造成大量时间的浪费，所以在掘，当原始数据量很大的时候，才可以结合划分的方法，使
此提出一种增量学习方法，最大限度地保留决策树中的原得一个ＦＰ－ｔ
ｒｅｅ可以放入主存中，实验表明，
ＦＰ－ｇ
ｒｈ对
ｏｗｔ
本分支及分类结果，减少了计算量［７］。不同长度的规则较之Ａｐｒ
ｉｏｉ算法有巨大的提高。
ｒ
２　关联规则法
２．３　神经网络法
２．
关联模式中最著名的是Ａｐｒ
ｉｏｉ算法，它是由Ｒ．
ｒ神经网络具有结构复杂、网络训练时间长、结果表示
Ａｇ
ｒａｗａ
ｌ等人首先提出来的［
８］
，其算法思想是：首先找出不容易理解等缺点，但其对噪声数据的高承受能力和低错
频繁性至少和预定义的最小支持度一样的所有频集，然后误率，神经网络具有较好的并行性，这些优点是其他方法
由频集产生强关联规则。最典型的例子就是沃尔玛尿布所不及的，而且各种网络训练算法的陆续提出与优化，尤
和啤酒事件，在此例中，商家就是利用统计这两种商品在其是各种网络剪枝算法和规则提取算法的不断提出与完
一次购买中共同出现的频数，将出现频数多的搭配转化为善，使得神经网络在数据挖掘的应用中越来越受到大家的
关联规则［９］。Ａｐ
ｒｉｏ
ｒｉ算法的实现是通过对数据库Ｄ的多青睐［１３］。其中使用较为广泛的有多层前馈式（ｍｕ
ｌｔｉ
－ｌａｙｅ
ｒ
次扫描来发现所有的频繁项目集。在每一次扫描中只考ｆ
ｅｅｄ－ｆ
ｏｒｗａ
ｒｄ）神经网络和后向传播（ｂａ
ｃｋ－ｐｒ
ｏｐａｇａｔ
ｉｏｎ，ＢＰ）
虑具有同一长度的所有项目集，在进行第一次扫描中，神经网络。多层前馈式神经网络迭代学习用于元组类标
Ａｐ
ｒｉｏ
ｒｉ算法计算Ｄ中所有单个项目的支持度，生成所有号预测的一组权重，而ＢＰ神经网络搜索一组权重，这组
长度为１的频繁项目集；在后续的每一次扫描中，首先以权重可对数据建模，使得神经元组的网络类预测和实际类
Ｋ－１次扫描所生成的所有项目集为基础产生新的候选项标号之间的均方距离最小，可用于语言综合、语音识别、自
目集，然后扫描数据库Ｄ，计算这些候选项目集的支持度，适应控制等［１４］。现在已经提出来一些神经网络方面的数
删除其支持度低于用户给定的最小支持度的项目集；最据挖掘算法改进，用以弥补神经网络结构复杂、网络训练
后，生成所有长度为Ｋ的频繁项目集。重复以上过程直时间长、结构表示不易理解等不足，比如，提出的基于模糊
到再也发现不了新的频繁项目集为止。由此可见，若要提神经网络的数据挖掘算法，把模糊理论和神经网络结合起
第１０期　　　　　　　　　　　　　　　　　　　王梦雪：数据挖掘综述 · １３７ ·
来构造、训练模糊神经网络［１５］。掘是 “下一代数据挖掘”。伴随着数据的增多，需要处理

的数据类型也变得越来越复杂，例如数据流、时间序列、时
３　研究现状间空间、多媒体和文本数据，虽然现在在很多复杂数据类
型的挖掘方面取得了一些进展，但是在应用需求和可用技
随着海量数据的增加，大数据时代的到来，导致人们术之间仍然存在较大的距离。
对数据的研究和利用越来越多，其中数据挖掘技术的不断数据挖掘中的隐私保护和信息安全：随着信息技术的
进步和发展也给整个世界信息的发展带来了许多成果。发展，越来越多的数据涌入了网络，其中包括大量电子形
在科学学领域方面，先进的现代化科学观测仪器的使用造式的个人信息，而挖掘技术的发展和科技的更新，在相反
成每天都要产生巨量的数据，如各种同步卫星每小时传回的一面上也使大量的个人信息受到了威胁，因此保护隐私
地球的遥感图像数据就达５０千兆字节。天文学上有一个的数据挖掘方法愈显重要［１６］。
很著名的应用系统———ＳＫＩＣＡＴ，这是第一个相当成功的
数据挖掘应用，也是人工智能技术在天文学和空间科学上５　结语
第一批成功的应用之一。目前，科学家已利用ＳＫＩＣＡＴ
发现了１６个新的极其遥远的类星体。在市场营销方面，Ｉ
ｎｔｅｔ的迅猛发展使得网络上的各种资源信息异
ｒｎｅ
条形码技术在商业上的普遍使用使得很多行业每天都积常丰富，而数据的迅速增加与数据分析方法的滞后之间的
累了大量数据，从市场营销来说，通过数据分析了解客户购矛盾也越来越突出，人们希望在对已有的大量数据分析的
物行为的一些特征，对提高竞争力及促进销售是有很大帮基础上进行科学研究、商业决策或者企业管理，而数据挖
助。在金融投资方面，目前国内有很多进行股票分析的软掘正是为了解决传统分析方法的不足，并针对大规模数据
件，并且定期有专家进行股票交易预测。数据挖掘技术还分析处理而出现的。数据挖掘技术的发展给科技的发展、
可以应用在甄别诈骗上，进行诈骗甄别主要是通过总结正经济的推动和每个人的生活都带来了巨大的便利，数据挖
常行为和诈骗行为之间的关系，得到诈骗行为的一些特征，掘技术也被越来越多的行业和领域所采用，并取得了很好
这样当某项业务符合这些特征时，可以向决策人员提出警的效果。
告。这方面比较成功的系统有ＦＡＬＣＯＮ和ＦＡＩ
Ｓ系统。在
参考文献：
Ｗｅｂ应用上，世界上最强大的搜索引擎Ｇｏｏｇｅ相比其他很
ｌ
多搜索引擎，它的搜索结果更让人满意，其中Ｇｏ
ｏｇｅ使用
ｌ［
１］　王惠中，彭安群．数据挖掘研究现状及发展趋势［
Ｊ］．工矿自动化，
的搜索算法主要是Ｐａ
ｇｅＲａｎｋ算法，在２００１年９月被授予２０１１（
２）．
［
２］　潘有能．
ＸＭＬ挖掘：聚类、分类与信息提取［Ｍ］．杭州：浙江大学出
美国专利，
Ｇｏｏ
ｇｌｅ的Ｐａ
ｇｅＲａｎｋ是根据网站的外部链接和内
版社，
２０１２．
部链接的数量和质量两衡量网站的价值。
［
３］　王桂芹，黄道．数据挖掘技术综述［
Ｃ］．全国第１８届计算机技术与
应用（Ｓ）学术会议论文集，
ＣＡＣＩ２００７．
４　数据挖掘发展趋势［
４］　李会，胡笑梅．决策树中ＩＤ３算法与Ｃ４．
５算法分析与比较［
Ｊ］．水
电能源科学，２００８，２６（２）：１２９－１３２．
现今，数据挖掘的发展趋势主要在以下几个方面：［
５］　刘鹏，姚正，尹俊杰．一种有效的Ｃ４．５改进模型［
Ｊ］．清华大学学
报：自然科学版，２００６（
４６）：９９６－１００１
数据挖掘语言的标准化：语言的标准化对于数据挖掘
［
６］　刘佳，王新伟．一种改进的Ｃ４．５算法及实验分析［Ｊ］．计算机应用
系统的开发和数据挖掘技术的普遍使用是至关重要的。
与软件，２００８，２５（１２）：
２６０－２６２．
其可改进多个数据挖掘系统和功能间的互操作，促进其在［
７］　程龙，蔡远文．数据挖掘Ｃ４．５算法的编程设计与增量学习改进
企业和社会中的使用。［
Ｊ］．计算技术与自动化，２００９，２８（４）：８３－８７．
［
８］　颜雪松，蔡之华．一种基于Ａｐｒ
ｉｏｉ的高效关联规则挖掘算法的研
ｒ
数据挖掘的可视化：可视化要求已经成为数据挖掘系
Ｊ］．计算机工程与应用，
究［２００２（１０）：
２０８－２１２．
统中必不可少的技术。可以在发现知识的过程中进行很［
９］　王光宏，蒋平．数据挖掘综述［Ｊ］．同济大学学报，２００４，３２（２）：２４６－
好的人机交互。数据的可视化起到了推动人们主动进行２５１．
知识发现的作用。［
１０］　罗可，吴杰．一种基于Ａｐ
ｒｉｏ
ｒｉ的改进算法［
Ｊ］．计算机工程与应
２００１（
用，２２）：２０－２２．
分布式数据挖掘：分布式技术的到来为日益增长的数
［
１１］　陈燕．数据挖掘技术及应用［Ｍ］．北京：清华大学出版社，２０１１．
据提供了有力支持，而分布式数据挖掘中将分布式技术和［
１２］　刘华婷，郭仁祥，姜浩．关联规则挖掘Ａｐ
ｒｉｏ
ｒｉ算法的研究与改进
数据挖掘技术的结合，也使对分离数据库的可协作数据挖［
Ｊ］．计算机应用与软件，２００９，２６（１）：
１４６－１４９．
［
１３］　刘钊，蒋良孝．基于神经网络的数据挖掘研究［Ｊ］．计算机工程与
掘工作开发了一个重要领域。
应用，２００４（
３）：１７２－１７４．
数据挖掘与数据库系统和Ｗｅｂ数据库系统的集成：［
１４］　毛国君、段立娟．数据挖掘原理与算法［Ｍ］．北京：科学出版社，
数据库系统和Ｗｅｂ数据库已经成为信息处理系统的主２００９．
流。数据挖掘系统的理想体系结构是与数据库和数据仓［
１５］　李良俊，张斌，杨明．一种基于模糊神经网络的数据挖掘算法［
Ｊ］．
计算机工程，２００７，
３３（
１２）：
６３－６５．
库系统的紧耦合。
［
１６］　［加］韩家炜，堪博．数据挖掘概念与技术［Ｍ］．范明，孟小峰，译．
挖掘复杂数据类型的新方法：挖掘复杂数据类型是数北京：机械工业出版社，
２００７．
据挖掘的重要前沿研究课题，也有人称复杂类型的数据挖（责任编辑：杜能钢）

数据挖掘综述

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

数据挖掘综述

Uploaded by

Copyright:

Available Formats

数据挖掘综述

来构造、训练模糊神经网络［１５］。掘是 “下一代数据挖掘”。伴随着数据的增多，需要处理

You might also like

数据挖掘综述

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

数据挖掘综述

Uploaded by

Copyright:

Available Formats

数据挖掘综述

来构造、训练模糊神经网络 ［１５］。 掘是 “下一代 数 据 挖 掘”。 伴 随 着 数 据 的 增 多 ，需 要 处 理

You might also like

来构造、训练模糊神经网络［１５］。掘是 “下一代数据挖掘”。伴随着数据的增多，需要处理