Professional Documents
Culture Documents
王梦雪
(成都理工大学,四川 成都 610059)
摘 要:随着计算机技术的迅猛发展,数据挖掘技术越来越受到世界的关注。从数据挖掘的概念出发,介绍了数 据 挖
掘的对象、功能及其挖掘过程,结合数据挖掘的几种常见挖掘算法:决 策 树 法、关 联 规 则 法 和 神 经 网 络 法 等,对 其 主 要
思想及其改进做了相关描述;总结了国内外数据挖掘的研究现状和应用,指出了数据挖掘的发展趋势。
关键词:数据挖掘;决策树法;关联规则法;神经网络法;研究现状;发展趋势
中图分类号:
TP39 文献标识码:
A 文章编号:
1672-7800(
2013)
0010-0135-03
2 数据挖掘对象
1.
0 引言 数据挖掘的对象可以是任何类型的数据源 ,可以 是 关
系数据库,此类包含 结 构 化 数 据 的 数 据 源 ;也 可 以 是 数 据
数据挖掘作为一个新兴的多学科交叉应用领域 ,正 在 仓库、文本、多媒体 数 据、空 间 数 据、时 序 数 据、Web 数 据,
各行各业的 决 策 支 持 活 动 中 扮 演 着 越 来 越 重 要 的 角 色 。 此类包含 半 结 构 化 数 据 甚 至 是 异 构 型 数 据 的 数 据 源 [2]。
随着信息技术的迅速发展 ,各行各业都积累了海量异 构 的 发现知识的方法可 以 是 数 字 的 、非 数 字 的,也 可 以 是 归 纳
数据资料。这些数据往往隐含着各种各样有用的信 息 ,仅 的,最终被发现了的知识可以用于信息管理 、查询优 化、决
仅依靠数据库的查 询 检 索 机 制 和 统 计 学 方 法 很 难 获 得 这 策支持及数据自身的维护等 [1]。
些信息,迫切需要将 这 些 数 据 转 化 成 有 用 的 信 息 和 知 识 , 3 数据挖掘功能
1.
从而达到为决策服 务 的 目 的 。 数 据 挖 掘 分 析 得 到 的 信 息 目前数据挖掘的 主 要 功 能 包 括 概 念 描 述 、关 联 分 析、
和知识现在已经得 到 了 广 泛 的 应 用 ,例 如 商 务 管 理、生 产 分类、聚类和偏差检测等 。概念描述主要用于描述对 象 内
控制、市场分析、工 程 设 计 和 科 学 探 索 等。 数 据 挖 掘 是 一 涵并且概括此对象相关特征 ,概念描述分为特征性描 述 和
个 多 学 科 领 域,它 融 合 了 数 据 库 技 术 、人 工 智 能、机 器 学 区别性描述,特征性 描 述 描 述 对 象 的 相 同 特 征 ,区 别 性 描
习、统计学、知识工程、信 息 检 索 等 最 新 技 术 的 研 究 成 果。 述描述对象的不同特征 ;关联分析主要用来发现数据 库 中
本文主要介绍了数据挖掘的几种主要算法及其改进 ,并 对 相关的知识以及数 据 之 间 的 规 律 ,关 联 分 为 简 单 关 联、时
国内外的研究现状及研究热点进行了总结 ,最后指出 其 发 序关联、因果关联;分 类 和 聚 类 就 是 根 据 需 要 训 练 相 应 的
展趋势 [
1]
。 样本来对数据分类和合并 ;偏差分析用于对对象中异 常 数
据的检测。
1 研究背景 4 数据挖掘过程
1.
数 据 挖 掘 主 要 分 3 个 阶 段 :数 据 准 备 、数 据 挖 掘 、结
1 数据挖掘
1. 果的评价和表达。数据准备主要是完成对大量 数 据 的 选
目前数据挖掘是人工智能和数据库领域的研究 热 点 , 择 、净 化 、推 测 、转 换 、数 据 的 缩 减 ,数 据 准 备 阶 段 的 工 作
数据挖掘是发现数 据 库 中 隐 含 知 识 的 重 要 步 骤 。 数 据 挖 好坏将影响到数据挖掘的效率和准确度以及最终模式的
掘出现于 20 世纪 80 年代末,早期主要研究从数 据 库 中 发 有 效 性 ,在 数 据 准 备 阶 段 可 以 消 除 在 挖 掘 过 程 中 无 用 的
现知识(
Knowl
egde
Dis
cove
ryi
n
Databa
se,KDD),数 据 挖 数 据 ,从 而 提 高 数 据 挖 掘 的 效 率 和 准 确 度 ;数 据 挖 掘 的 工
掘的概念源于 1995 年在加拿大召开了第一届知识 发 现 和 作 首 先 需 要 选 择 相 应 的 挖 掘 实 施 算 法 ,例 如 决 策 树 、分
数据挖掘国际会议 [2]。数 据 挖 掘 作 为 一 种 多 学 科 综 合 的 类 、聚 类 、粗 糙 集 、关 联 规 则 、神 经 网 络 、遗 传 算 法 等 ,然 后
产物,综合利用人工智能 、机器学习、模式识别、统 计 学、数 对 数 据 进 行 分 析 ,从 而 得 到 知 识 的 模 型 ;结 果 评 价 和 表 达
据库、可视化技术等,自 动 分 析 数 据 并 从 中 得 到 潜 在 隐 含 主要是确定知识的模式模型是否有效以便发现有意义的
的知识,从而帮助决策者做出合理并正确的决策 。 模 型 [3]。
作者简介:王梦雪(
1989- ),女,成都理工大学信息科学与技术学院硕士研究生,研究方向为计算机网络与技术。
· 136 · 软 件 导 刊 2013 年
高 Ap
rio
ri算法的效率,可 以 减 少 对 数 据 库 的 扫 描 次 数 或
2 数据挖掘主要方法 者减少不必要的频繁 项 目 集 的 生 成 [10],对 Ap
rio
ri算 法 的
改进主要方法有 :① 基于划分的方法 :其基本思想是:对 于
1 决策树法
2. 整个交易数据库而 言 ,如 果 一 个 项 集 是 频 繁 项 集,那 么 它
决策树法是数据挖 掘 的 分 类 功 能 中 一 种 比 较 常 用 的 必然有这样的结果 ,即至少在一个分割的部分内它是 频 繁
方法。决策 树 法 起 源 于 概 念 学 习 系 统 CLS,然 后 发 展 到 的;② 基于抽样的方 法:首 先 从 数 据 库 中 抽 取 一 个 样 本 并
ID3 方法,
ID3 算法是由 Quin
lan 首 先 提 出,该 算 法 是 以 信 生成该样本的候选项集 ,当然希望这些项集在全局数 据 库
息论为基础,以信息熵和信 息 增 益 度 为 衡 量 标 准 。ID3 算 中是频繁的,在接下 来 的 一 次 扫 描 中 ,算 法 将 统 计 这 些 项
法的主要思想是 :首 先 计 算 各 属 性 的 信 息 增 益,然 后 选 取 集确切的支持度以 及 负 边 界 的 支 持 度 。 如 果 在 负 边 界 中
具有最高增益的属 性 作 为 给 定 集 合 的 测 试 属 性 。 所 以 造 没有一个是频繁的 ,那 么 算 法 将 找 到 所 有 的 频 繁 项 集 ,否
成 ID3 用信息增益选择属性时偏向选择取值多的属性 ,但 则,负边界中的项集有可能是频繁项集 ;③ 增量更新 方 法:
是取值多的属性不 一 定 找 到 最 优 解 ,为 了 克 服 此 问 题,出 其基本思想是使用 该 技 术 来 对 所 发 现 的 频 繁 项 集 和 相 应
现了 改 进 算 法———C4.
5算法
[
4]
。C4. 5算法不但克服了 的关联规则进行维护 ,以便在数据库发生变化时避免 对 所
ID3 偏向选择取值多的属性这 一 缺 点 还 实 现 了 对 连 续 属
, 有的频繁项集和相应的关联规则重新进行挖掘分析 ,即 只
性的离散化 处 理 和 对 不 完 整 数 据 的 处 理 。 虽 然 C4.
5算 对发生变化的那部分数据进行关联分析 ;④ 概念层次 的 方
法在速 度 和 预 测 精 度 等 方 面 占 有 优 势,但 是 由 于 C4.
5在 法;⑤ 基于 散 列 和 压 缩 技 术 的 方 法 [11]。 所 以 也 有 很 多 学
构造树的过程中,需要对数据集进行多次的顺序扫描 和 排 者对 Apr
ioi算法 进 行 了 改 进,例 如,对 Ap
r rio
ri的 改 进 算
序,导致该算法在 性 能 方 面 较 为 低 效 。 针 对 C4.
5算法效 法 Ap
rio
r d 算法,在 Ap
iTi rio
r d算 法 中 仅 在 第 一 次 扫 描
iTi
率不高的问题,很多 学 者 提 出 了 针 对 改 进 措 施 :一 种 有 效 时 用 事 务 数 据 库 D 计 算 候 选 频 繁 项 目 集 的 支 持 度,其 他
的 C4.
5 的改进模型 R-C4.
5,该 决 策 树 模 型 通 过 合 并 分 各次扫描用上一次扫描生成的候选数据库 D’来 计 算 候 选
类较差的分支,减少 了 无 意 义 的 分 支 进 一 步 的 划 分 ,有 效 频繁项目集的支持 度 ,减 少 了 I /O 的 操 作 时 间,提 高 了 算
避免了碎片的产生 ,在 保 持 模 型 预 测 准 确 率 的 同 时,有 效 法的效率 [8],此 外,在 对 Ap
rio
ri的 改 进 算 法 中 ,基 于 新 的
改进了树的健壮性 [5]。而 从 C4.
5在连续值属性离散化方 数据结构和改进了的产生候选集的连接方法 ,也实现 了 对
面的局限性来看,C4.5 算法在对连续值属性进行离散化处 事物挖掘上优 于 Ap rio
ri算 法 的 效 率 12 。 针 对 Ap
[ ]
rio
ri算
理时,为了找到较 好 的 划 分 点, 5算法需要测试所有潜
C4. 法的固有缺陷, J.Han 等提出了不产生候选挖掘 频 繁 项 集
在的划分信息增益,这样就大大降低了该算法分类的效率。 的方法:
FP-tre频集算法。FP-t
e r
ee频 集 算 法 采 用 分 而 治
基于 Fa
yyd和 I
a r i对 C4.
an 5 算法的 改 进,调 整 了 其 对 连 续 之的策略,第一遍扫描的过程中把数据库中的频集压 缩 进
值属性惩罚的基础,指定一个 阈 值 a,通 过 a 值 的 判 定 与 增 一棵频繁 模 式 树 (
FP-t
ree),同 时 依 然 保 留 其 中 的 关 联 信
益率的判定,决定是否继续构造节点 [6]。此外,考虑到有新 息,随后再 将 FP-t
ree 分 化 成 一 些 条 件 库,每 个 库 和 一 个
样本添加到数据库中 的 情 况,按 照 C4.
5 算 法,需 要 对 所 有 长度为 1 的 频 集 相 关,然 后 再 对 这 些 条 件 库 分 别 进 行 挖
的样本进行重新学习,这样会造成大量时间的浪费,所以在 掘,当原始数据量很大的时候 ,才可以结合划分的方 法 ,使
此提出一种增量学习 方 法,最 大 限 度 地 保 留 决 策 树 中 的 原 得一个 FP-t
ree可以放入主 存 中,实 验 表 明,
FP-g
r h对
owt
本分支及分类结果,减少了计算量 [7]。 不同长度的规则较之 Ap r
ioi算法有巨大的提高 。
r
2 关联规则法
2. 3 神经网络法
2.
关 联 模 式 中 最 著 名 的 是 Ap r
ioi 算 法,它 是 由 R.
r 神经网络具有结 构 复 杂 、网 络 训 练 时 间 长、结 果 表 示
Ag
rawa
l 等人首先 提 出 来 的 [
8]
,其 算 法 思 想 是:首 先 找 出 不容易理解等缺点 ,但其对噪声数据的高承受能力和 低 错
频繁性至少和预定义的最小支持度一样的所有频集 ,然 后 误率,神经网络具有 较 好 的 并 行 性 ,这 些 优 点 是 其 他 方 法
由频集产生强关联 规 则 。 最 典 型 的 例 子 就 是 沃 尔 玛 尿 布 所不及的,而且各种 网 络 训 练 算 法 的 陆 续 提 出 与 优 化 ,尤
和啤酒事件,在此例 中,商 家 就 是 利 用 统 计 这 两 种 商 品 在 其是各种网络剪枝 算 法 和 规 则 提 取 算 法 的 不 断 提 出 与 完
一次购买中共同出现的频数 ,将出现频数多的搭配转 化 为 善,使得神经网络在数据挖掘的应用中越来越受到大 家 的
关联规则 [9]。Ap
rio
ri算 法 的 实 现 是 通 过 对 数 据 库 D 的 多 青睐 [13]。其中使用较为广 泛 的 有 多 层 前 馈 式 (mu
lti
-laye
r
次扫描来发现所有 的 频 繁 项 目 集 。 在 每 一 次 扫 描 中 只 考 f
eed-f
orwa
rd)神经网络和后向传播( ba
ck-pr
opagat
ion,BP)
虑具有 同 一 长 度 的 所 有 项 目 集 ,在 进 行 第 一 次 扫 描 中, 神经网络。多层前馈 式 神 经 网 络 迭 代 学 习 用 于 元 组 类 标
Ap
rio
ri算法计算 D 中 所 有 单 个 项 目 的 支 持 度,生 成 所 有 号预测的一 组 权 重 ,而 BP 神 经 网 络 搜 索 一 组 权 重 ,这 组
长度为 1 的频繁项 目 集;在 后 续 的 每 一 次 扫 描 中,首 先 以 权重可对数据建模 ,使得神经元组的网络类预测和实 际 类
K-1 次扫描所生成的所有项目集为基础产生新的 候 选 项 标号之间的均方距离最小 ,可用于语言综合 、语音识 别、自
目集,然后扫描数据库 D,计算这些候选项 目 集 的 支 持 度 , 适应控制等 [14]。现在已经提 出 来 一 些 神 经 网 络 方 面 的 数
删除其支持 度 低 于 用 户 给 定 的 最 小 支 持 度 的 项 目 集 ;最 据挖掘算法改进 ,用 以 弥 补 神 经 网 络 结 构 复 杂、网 络 训 练
后,生 成 所 有 长 度 为 K 的 频 繁 项 目 集。 重 复 以 上 过 程 直 时间长、结构表示不易理解等不足 ,比如,提出的基于 模 糊
到再也发现不了新的频繁项目集为止 。由此可见,若 要 提 神经网络的数据挖掘算法 ,把模糊理论和神经网络结 合 起
第 10 期 王梦雪:数据挖掘综述 · 137 ·