You are on page 1of 3

数据挖掘综述

王梦雪
(成都理工大学,四川 成都 610059)

摘   要:随着计算机技术的迅猛发展,数据挖掘技术越来越受到世界的关注。从数据挖掘的概念出发,介绍了数 据 挖
掘的对象、功能及其挖掘过程,结合数据挖掘的几种常见挖掘算法:决 策 树 法、关 联 规 则 法 和 神 经 网 络 法 等,对 其 主 要
思想及其改进做了相关描述;总结了国内外数据挖掘的研究现状和应用,指出了数据挖掘的发展趋势。
关键词:数据挖掘;决策树法;关联规则法;神经网络法;研究现状;发展趋势
中图分类号:
TP39      文献标识码:
A      文章编号:
1672-7800(
2013)
0010-0135-03

2  数据挖掘对象
1.
0  引言 数据挖掘的对象可以是任何类型的数据源 ,可以 是 关
系数据库,此类包含 结 构 化 数 据 的 数 据 源 ;也 可 以 是 数 据
数据挖掘作为一个新兴的多学科交叉应用领域 ,正 在 仓库、文本、多媒体 数 据、空 间 数 据、时 序 数 据、Web 数 据,
各行各业的 决 策 支 持 活 动 中 扮 演 着 越 来 越 重 要 的 角 色 。 此类包含 半 结 构 化 数 据 甚 至 是 异 构 型 数 据 的 数 据 源 [2]。
随着信息技术的迅速发展 ,各行各业都积累了海量异 构 的 发现知识的方法可 以 是 数 字 的 、非 数 字 的,也 可 以 是 归 纳
数据资料。这些数据往往隐含着各种各样有用的信 息 ,仅 的,最终被发现了的知识可以用于信息管理 、查询优 化、决
仅依靠数据库的查 询 检 索 机 制 和 统 计 学 方 法 很 难 获 得 这 策支持及数据自身的维护等 [1]。
些信息,迫切需要将 这 些 数 据 转 化 成 有 用 的 信 息 和 知 识 , 3  数据挖掘功能
1.
从而达到为决策服 务 的 目 的 。 数 据 挖 掘 分 析 得 到 的 信 息 目前数据挖掘的 主 要 功 能 包 括 概 念 描 述 、关 联 分 析、
和知识现在已经得 到 了 广 泛 的 应 用 ,例 如 商 务 管 理、生 产 分类、聚类和偏差检测等 。概念描述主要用于描述对 象 内
控制、市场分析、工 程 设 计 和 科 学 探 索 等。 数 据 挖 掘 是 一 涵并且概括此对象相关特征 ,概念描述分为特征性描 述 和
个 多 学 科 领 域,它 融 合 了 数 据 库 技 术 、人 工 智 能、机 器 学 区别性描述,特征性 描 述 描 述 对 象 的 相 同 特 征 ,区 别 性 描
习、统计学、知识工程、信 息 检 索 等 最 新 技 术 的 研 究 成 果。 述描述对象的不同特征 ;关联分析主要用来发现数据 库 中
本文主要介绍了数据挖掘的几种主要算法及其改进 ,并 对 相关的知识以及数 据 之 间 的 规 律 ,关 联 分 为 简 单 关 联、时
国内外的研究现状及研究热点进行了总结 ,最后指出 其 发 序关联、因果关联;分 类 和 聚 类 就 是 根 据 需 要 训 练 相 应 的
展趋势 [
1]
。 样本来对数据分类和合并 ;偏差分析用于对对象中异 常 数
据的检测。
1  研究背景 4  数据挖掘过程
1.
数 据 挖 掘 主 要 分 3 个 阶 段 :数 据 准 备 、数 据 挖 掘 、结
1  数据挖掘
1. 果的评价和表达。数据准备主要是完成对大量 数 据 的 选
目前数据挖掘是人工智能和数据库领域的研究 热 点 , 择 、净 化 、推 测 、转 换 、数 据 的 缩 减 ,数 据 准 备 阶 段 的 工 作
数据挖掘是发现数 据 库 中 隐 含 知 识 的 重 要 步 骤 。 数 据 挖 好坏将影响到数据挖掘的效率和准确度以及最终模式的
掘出现于 20 世纪 80 年代末,早期主要研究从数 据 库 中 发 有 效 性 ,在 数 据 准 备 阶 段 可 以 消 除 在 挖 掘 过 程 中 无 用 的
现知识(
Knowl
egde 
Dis
cove
ryi
 n 
Databa
se,KDD),数 据 挖 数 据 ,从 而 提 高 数 据 挖 掘 的 效 率 和 准 确 度 ;数 据 挖 掘 的 工
掘的概念源于 1995 年在加拿大召开了第一届知识 发 现 和 作 首 先 需 要 选 择 相 应 的 挖 掘 实 施 算 法 ,例 如 决 策 树 、分
数据挖掘国际会议 [2]。数 据 挖 掘 作 为 一 种 多 学 科 综 合 的 类 、聚 类 、粗 糙 集 、关 联 规 则 、神 经 网 络 、遗 传 算 法 等 ,然 后
产物,综合利用人工智能 、机器学习、模式识别、统 计 学、数 对 数 据 进 行 分 析 ,从 而 得 到 知 识 的 模 型 ;结 果 评 价 和 表 达
据库、可视化技术等,自 动 分 析 数 据 并 从 中 得 到 潜 在 隐 含 主要是确定知识的模式模型是否有效以便发现有意义的
的知识,从而帮助决策者做出合理并正确的决策 。 模 型 [3]。

作者简介:王梦雪(
1989- ),女,成都理工大学信息科学与技术学院硕士研究生,研究方向为计算机网络与技术。
· 136 · 软 件 导 刊                       2013 年

高 Ap
rio
ri算法的效率,可 以 减 少 对 数 据 库 的 扫 描 次 数 或
2  数据挖掘主要方法 者减少不必要的频繁 项 目 集 的 生 成 [10],对 Ap
rio
ri算 法 的
改进主要方法有 :① 基于划分的方法 :其基本思想是:对 于
1  决策树法
2. 整个交易数据库而 言 ,如 果 一 个 项 集 是 频 繁 项 集,那 么 它
决策树法是数据挖 掘 的 分 类 功 能 中 一 种 比 较 常 用 的 必然有这样的结果 ,即至少在一个分割的部分内它是 频 繁
方法。决策 树 法 起 源 于 概 念 学 习 系 统 CLS,然 后 发 展 到 的;② 基于抽样的方 法:首 先 从 数 据 库 中 抽 取 一 个 样 本 并
ID3 方法,
ID3 算法是由 Quin
lan 首 先 提 出,该 算 法 是 以 信 生成该样本的候选项集 ,当然希望这些项集在全局数 据 库
息论为基础,以信息熵和信 息 增 益 度 为 衡 量 标 准 。ID3 算 中是频繁的,在接下 来 的 一 次 扫 描 中 ,算 法 将 统 计 这 些 项
法的主要思想是 :首 先 计 算 各 属 性 的 信 息 增 益,然 后 选 取 集确切的支持度以 及 负 边 界 的 支 持 度 。 如 果 在 负 边 界 中
具有最高增益的属 性 作 为 给 定 集 合 的 测 试 属 性 。 所 以 造 没有一个是频繁的 ,那 么 算 法 将 找 到 所 有 的 频 繁 项 集 ,否
成 ID3 用信息增益选择属性时偏向选择取值多的属性 ,但 则,负边界中的项集有可能是频繁项集 ;③ 增量更新 方 法:
是取值多的属性不 一 定 找 到 最 优 解 ,为 了 克 服 此 问 题,出 其基本思想是使用 该 技 术 来 对 所 发 现 的 频 繁 项 集 和 相 应
现了 改 进 算 法———C4.
5算法

4]
。C4. 5算法不但克服了 的关联规则进行维护 ,以便在数据库发生变化时避免 对 所
ID3 偏向选择取值多的属性这 一 缺 点 还 实 现 了 对 连 续 属
, 有的频繁项集和相应的关联规则重新进行挖掘分析 ,即 只
性的离散化 处 理 和 对 不 完 整 数 据 的 处 理 。 虽 然 C4.
5算 对发生变化的那部分数据进行关联分析 ;④ 概念层次 的 方
法在速 度 和 预 测 精 度 等 方 面 占 有 优 势,但 是 由 于 C4.
5在 法;⑤ 基于 散 列 和 压 缩 技 术 的 方 法 [11]。 所 以 也 有 很 多 学
构造树的过程中,需要对数据集进行多次的顺序扫描 和 排 者对 Apr
ioi算法 进 行 了 改 进,例 如,对 Ap
r rio
ri的 改 进 算
序,导致该算法在 性 能 方 面 较 为 低 效 。 针 对 C4.
5算法效 法 Ap
rio
r d 算法,在 Ap
iTi rio
r d算 法 中 仅 在 第 一 次 扫 描
iTi
率不高的问题,很多 学 者 提 出 了 针 对 改 进 措 施 :一 种 有 效 时 用 事 务 数 据 库 D 计 算 候 选 频 繁 项 目 集 的 支 持 度,其 他
的 C4.
5 的改进模型 R-C4.
5,该 决 策 树 模 型 通 过 合 并 分 各次扫描用上一次扫描生成的候选数据库 D’来 计 算 候 选
类较差的分支,减少 了 无 意 义 的 分 支 进 一 步 的 划 分 ,有 效 频繁项目集的支持 度 ,减 少 了 I /O 的 操 作 时 间,提 高 了 算
避免了碎片的产生 ,在 保 持 模 型 预 测 准 确 率 的 同 时,有 效 法的效率 [8],此 外,在 对 Ap
rio
ri的 改 进 算 法 中 ,基 于 新 的
改进了树的健壮性 [5]。而 从 C4.
5在连续值属性离散化方 数据结构和改进了的产生候选集的连接方法 ,也实现 了 对
面的局限性来看,C4.5 算法在对连续值属性进行离散化处 事物挖掘上优 于 Ap rio
ri算 法 的 效 率 12 。 针 对 Ap
[ ]
rio
ri算
理时,为了找到较 好 的 划 分 点, 5算法需要测试所有潜
C4. 法的固有缺陷, J.Han 等提出了不产生候选挖掘 频 繁 项 集
在的划分信息增益,这样就大大降低了该算法分类的效率。 的方法:
FP-tre频集算法。FP-t
e r
ee频 集 算 法 采 用 分 而 治
基于 Fa
yyd和 I
a r i对 C4.
an 5 算法的 改 进,调 整 了 其 对 连 续 之的策略,第一遍扫描的过程中把数据库中的频集压 缩 进
值属性惩罚的基础,指定一个 阈 值 a,通 过 a 值 的 判 定 与 增 一棵频繁 模 式 树 (
FP-t
ree),同 时 依 然 保 留 其 中 的 关 联 信
益率的判定,决定是否继续构造节点 [6]。此外,考虑到有新 息,随后再 将 FP-t
ree 分 化 成 一 些 条 件 库,每 个 库 和 一 个
样本添加到数据库中 的 情 况,按 照 C4.
5 算 法,需 要 对 所 有 长度为 1 的 频 集 相 关,然 后 再 对 这 些 条 件 库 分 别 进 行 挖
的样本进行重新学习,这样会造成大量时间的浪费,所以在 掘,当原始数据量很大的时候 ,才可以结合划分的方 法 ,使
此提出一种增量学习 方 法,最 大 限 度 地 保 留 决 策 树 中 的 原 得一个 FP-t
ree可以放入主 存 中,实 验 表 明,
FP-g
r h对
owt
本分支及分类结果,减少了计算量 [7]。 不同长度的规则较之 Ap r
ioi算法有巨大的提高 。

2  关联规则法
2. 3  神经网络法
2.
关 联 模 式 中 最 著 名 的 是 Ap r
ioi 算 法,它 是 由 R.
r 神经网络具有结 构 复 杂 、网 络 训 练 时 间 长、结 果 表 示
Ag
rawa
l 等人首先 提 出 来 的 [
8]
,其 算 法 思 想 是:首 先 找 出 不容易理解等缺点 ,但其对噪声数据的高承受能力和 低 错
频繁性至少和预定义的最小支持度一样的所有频集 ,然 后 误率,神经网络具有 较 好 的 并 行 性 ,这 些 优 点 是 其 他 方 法
由频集产生强关联 规 则 。 最 典 型 的 例 子 就 是 沃 尔 玛 尿 布 所不及的,而且各种 网 络 训 练 算 法 的 陆 续 提 出 与 优 化 ,尤
和啤酒事件,在此例 中,商 家 就 是 利 用 统 计 这 两 种 商 品 在 其是各种网络剪枝 算 法 和 规 则 提 取 算 法 的 不 断 提 出 与 完
一次购买中共同出现的频数 ,将出现频数多的搭配转 化 为 善,使得神经网络在数据挖掘的应用中越来越受到大 家 的
关联规则 [9]。Ap
rio
ri算 法 的 实 现 是 通 过 对 数 据 库 D 的 多 青睐 [13]。其中使用较为广 泛 的 有 多 层 前 馈 式 (mu
lti
-laye

次扫描来发现所有 的 频 繁 项 目 集 。 在 每 一 次 扫 描 中 只 考 f
eed-f
orwa
rd)神经网络和后向传播( ba
ck-pr
opagat
ion,BP)
虑具有 同 一 长 度 的 所 有 项 目 集 ,在 进 行 第 一 次 扫 描 中, 神经网络。多层前馈 式 神 经 网 络 迭 代 学 习 用 于 元 组 类 标
Ap
rio
ri算法计算 D 中 所 有 单 个 项 目 的 支 持 度,生 成 所 有 号预测的一 组 权 重 ,而 BP 神 经 网 络 搜 索 一 组 权 重 ,这 组
长度为 1 的频繁项 目 集;在 后 续 的 每 一 次 扫 描 中,首 先 以 权重可对数据建模 ,使得神经元组的网络类预测和实 际 类
K-1 次扫描所生成的所有项目集为基础产生新的 候 选 项 标号之间的均方距离最小 ,可用于语言综合 、语音识 别、自
目集,然后扫描数据库 D,计算这些候选项 目 集 的 支 持 度 , 适应控制等 [14]。现在已经提 出 来 一 些 神 经 网 络 方 面 的 数
删除其支持 度 低 于 用 户 给 定 的 最 小 支 持 度 的 项 目 集 ;最 据挖掘算法改进 ,用 以 弥 补 神 经 网 络 结 构 复 杂、网 络 训 练
后,生 成 所 有 长 度 为 K 的 频 繁 项 目 集。 重 复 以 上 过 程 直 时间长、结构表示不易理解等不足 ,比如,提出的基于 模 糊
到再也发现不了新的频繁项目集为止 。由此可见,若 要 提 神经网络的数据挖掘算法 ,把模糊理论和神经网络结 合 起
第 10 期                      王梦雪:数据挖掘综述 · 137 ·

来构造、训练模糊神经网络 [15]。 掘是 “下一代 数 据 挖 掘”。 伴 随 着 数 据 的 增 多 ,需 要 处 理


的数据类型也变得越来越复杂 ,例如数据流、时间序 列、时
3  研究现状 间空间、多媒体和文 本 数 据 ,虽 然 现 在 在 很 多 复 杂 数 据 类
型的挖掘方面取得了一些进展 ,但是在应用需求和可 用 技
随着海量数据的 增 加 ,大 数 据 时 代 的 到 来,导 致 人 们 术之间仍然存在较大的距离 。
对数据的研究和利用越来越多 ,其中数据挖掘技术的 不 断 数据挖掘中的隐私保护和信息安全 :随着信息技 术 的
进步和发展 也 给 整 个 世 界 信 息 的 发 展 带 来 了 许 多 成 果 。 发展,越来越多的数 据 涌 入 了 网 络 ,其 中 包 括 大 量 电 子 形
在科学学领域方面 ,先进的现代化科学观测仪器的使 用 造 式的个人信息,而挖 掘 技 术 的 发 展 和 科 技 的 更 新 ,在 相 反
成每天都要产生巨量的数据 ,如各种同步卫星每小时 传 回 的一面上也使大量的个人信息受到了威胁 ,因此保护 隐 私
地球的遥感图像数据就达 50 千兆字节。天文学上 有 一 个 的数据挖掘方法愈显重要 [16]。
很 著 名 的 应 用 系 统———SKICAT,这 是 第 一 个 相 当 成 功 的
数据挖掘应用,也是人工智能技术在天文学和空间科 学 上 5  结语
第一批 成 功 的 应 用 之 一。 目 前,科 学 家 已 利 用 SKICAT
发现了 16 个新的 极 其 遥 远 的 类 星 体。 在 市 场 营 销 方 面, I
nte t的迅猛 发 展 使 得 网 络 上 的 各 种 资 源 信 息 异
rne
条形码技术在商业 上 的 普 遍 使 用 使 得 很 多 行 业 每 天 都 积 常丰富,而数据的迅速增加与数据分析方法的滞后之 间 的
累了大量数据,从市场营销来说,通过数据分析了解客户购 矛盾也越来越突出 ,人们希望在对已有的大量数据分 析 的
物行为的一些特征,对 提 高 竞 争 力 及 促 进 销 售 是 有 很 大 帮 基础上进行科学研 究 、商 业 决 策 或 者 企 业 管 理,而 数 据 挖
助。在金融投资方面,目 前 国 内 有 很 多 进 行 股 票 分 析 的 软 掘正是为了解决传统分析方法的不足 ,并针对大规模 数 据
件,并且定期有专家 进 行 股 票 交 易 预 测。数 据 挖 掘 技 术 还 分析处理而出现的 。数据挖掘技术的发展给科技的 发 展 、
可以应用在甄别诈骗 上,进 行 诈 骗 甄 别 主 要 是 通 过 总 结 正 经济的推动和每个人的生活都带来了巨大的便利 ,数 据 挖
常行为和诈骗行为之间的关系,得到诈骗行为的一些特征, 掘技术也被越来越多的行业和领域所采用 ,并取得了 很 好
这样当某项业务符合 这 些 特 征 时,可 以 向 决 策 人 员 提 出 警 的效果。
告。这方面比较成功的系统有 FALCON 和 FAI
S 系统。在
参考文献:
Web应用上,世界上最强大的搜索引擎 Go oge相比其他 很

多 搜 索 引 擎,它 的 搜 索 结 果 更 让 人 满 意,其 中 Go
oge使 用
l [
1]  王惠中,彭安群 .数 据 挖 掘 研 究 现 状 及 发 展 趋 势 [
J].工 矿 自 动 化,
的搜索算法主 要 是 Pa
geRank 算 法,在 2001 年 9 月 被 授 予 2011(
2).

2]  潘有能 .
XML 挖掘:聚类、分类 与 信 息 提 取[M].杭 州:浙 江 大 学 出
美国专利,
Goo
gle的 Pa
geRank 是根据网站的外部链接和内
版社,
2012.
部链接的数量和质量两衡量网站的价值。

3]  王桂芹,黄道 .数据挖掘 技 术 综 述 [
C].全 国 第 18 届 计 算 机 技 术 与
应用( S)学术会议论文集,
CACI 2007.
4  数据挖掘发展趋势 [
4]  李会,胡笑梅 .决 策 树 中 ID3 算 法 与 C4.
5算法分析与比较[
J].水
电能源科学,2008,26(2):129-132.
现今,数据挖掘的发展趋势主要在以下几个方面 : [
5]  刘鹏,姚正,尹 俊 杰 .一 种 有 效 的 C4.5改进模型[
J].清 华 大 学 学
报:自然科学版, 2006(
46):996-1001
数据挖掘语言的标准化 :语言的标准化对于数据 挖 掘

6]  刘佳,王新伟 .一 种 改 进 的 C4. 5算法及实验分析[ J].计 算 机 应 用
系统的开发 和 数 据 挖 掘 技 术 的 普 遍 使 用 是 至 关 重 要 的 。
与软件,2008,25(12):
260-262.
其可改进多个数据挖掘系统和功能间的互操作 ,促进 其 在 [
7]  程龙,蔡 远 文 .数 据 挖 掘 C4.5算法的编程设计与增量学习改进
企业和社会中的使用 。 [
J].计算技术与自动化, 2009,28(4):83-87.

8]  颜雪松,蔡之华 .一 种 基 于 Apr
ioi的 高 效 关 联 规 则 挖 掘 算 法 的 研

数据挖掘的可视化 :可视化要求已经成为数据挖 掘 系
J].计算机工程与应用,
究[ 2002(10):
208-212.
统中必不可少的技 术 。 可 以 在 发 现 知 识 的 过 程 中 进 行 很 [
9]  王光宏,蒋平 .数据挖掘 综 述 [J].同 济 大 学 学 报,2004,32(2):246-
好的人机交互。数据 的 可 视 化 起 到 了 推 动 人 们 主 动 进 行 251.
知识发现的作用 。 [
10]  罗可,吴 杰 .一 种 基 于 Ap
rio
ri的 改 进 算 法 [
J].计 算 机 工 程 与 应
2001(
用, 22):20-22.
分布式数据挖掘:分布式技术的到来为日益增长 的 数

11]  陈燕 .数据挖掘技术及应用[M].北京:清华大学出版社, 2011.
据提供了有力支持 ,而分布式数据挖掘中将分布式技 术 和 [
12]  刘华婷,郭仁 祥,姜 浩 .关 联 规 则 挖 掘 Ap
rio
ri算 法 的 研 究 与 改 进
数据挖掘技术的结合 ,也使对分离数据库的可协作数 据 挖 [
J].计算机应用与软件, 2009,26(1):
146-149.

13]  刘钊,蒋良孝 .基于 神 经 网 络 的 数 据 挖 掘 研 究 [ J].计 算 机 工 程 与
掘工作开发了一个重要领域 。
应用,2004(
3):172-174.
数据挖掘与数 据 库 系 统 和 Web 数 据 库 系 统 的 集 成 : [
14]  毛国 君、段 立 娟 .数 据 挖 掘 原 理 与 算 法 [M].北 京:科 学 出 版 社,
数据库系 统 和 Web 数 据 库 已 经 成 为 信 息 处 理 系 统 的 主 2009.
流。数据挖掘系统的 理 想 体 系 结 构 是 与 数 据 库 和 数 据 仓 [
15]  李良俊,张斌,杨明 .一种基于 模 糊 神 经 网 络 的 数 据 挖 掘 算 法[
J].
计算机工程, 2007,
33(
12):
63-65.
库系统的紧耦合 。

16]  [加]韩家炜,堪博 .数据挖 掘 概 念 与 技 术 [M].范 明,孟 小 峰,译 .
挖掘复杂数据类型的新方法 :挖掘复杂数据类型 是 数 北京:机械工业出版社,
2007.
据挖掘的重要前沿研究课题 ,也有人称复杂类型的数 据 挖 (责任编辑:杜能钢)

You might also like