内容简介
《数据挖掘导论(完整版)》全面介绍了数据挖掘的理论和方法,旨在为读者提供将数据挖掘应用于实际问题所必需的知识。《数据挖掘导论(完整版)》涵盖五个主题:数据、分类、关联分析、聚类和异常检测。除异常检测外,每个主题都包含两章:前面一章讲述基本概念、代表性算法和评估技术,后面一章较深入地讨论高级概念和算法。目的是使读者在透彻地理解数据挖掘基础的同时,还能了解更多重要的高级主题。此外,书中还提供了大量示例、图表和习题。
《数据挖掘导论(完整版)》适合作为相关专业高年级本科生和研究生数据挖掘课程的教材,同时也可作为数据挖掘研究和应用开发人员的参考书。
目录
目录
第1章 绪论 1
1.1 什么是数据挖掘 2
1.2 数据挖掘要解决的问题 2
1.3 数据挖掘的起源 3
1.4 数据挖掘任务 4
1.5 本书的内容与组织 7
文献注释 7
参考文献 8
习题 10
第2章 数据 13
2.1 数据类型 14
2.1.1 属性与度量 15
2.1.2 数据集的类型 18
2.2 数据质量 22
2.2.1 测量和数据收集问题 22
2.2.2 关于应用的问题 26
2.3 数据预处理 27
2.3.1 聚集 27
2.3.2 抽样 28
2.3.3 维归约 30
2.3.4 特征子集选择 31
2.3.5 特征创建 33
2.3.6 离散化和二元化 34
2.3.7 变量变换 38
2.4 相似性和相异性的度量 38
2.4.1 基础 39
2.4.2 简单属性之间的相似度和相异度 40
2.4.3 数据对象之间的相异度 41
2.4.4 数据对象之间的相似度 43
2.4.5 邻近性度量的例子 43
2.4.6 邻近度计算问题 48
2.4.7 选取正确的邻近性度量 50
文献注释 50
参考文献 52
习题 53
第3章 探索数据 59
3.1 鸢尾花数据集 59
3.2 汇总统计 60
3.2.1 频率和众数 60
3.2.2 百分位数 61
3.2.3 位置度量:均值和中位数 61
3.2.4 散布度量:极差和方差 62
3.2.5 多元汇总统计 63
3.2.6 汇总数据的其他方法 64
3.3 可视化 64
3.3.1 可视化的动机 64
3.3.2 一般概念 65
3.3.3 技术 67
3.3.4 可视化高维数据 75
3.3.5 注意事项 79
3.4 OLAP和多维数据分析 79
3.4.1 用多维数组表示鸢尾花数据 80
3.4.2 多维数据:一般情况 81
3.4.3 分析多维数据 82
3.4.4 关于多维数据分析的最后评述 84
文献注释 84
参考文献 85
习题 86
第4章 分类:基本概念、决策树与模型评估 89
4.1 预备知识 89
4.2 解决分类问题的一般方法 90
4.3 决策树归纳 92
4.3.1 决策树的工作原理 92
4.3.2 如何建立决策树 93
4.3.3 表示属性测试条件的方法 95
4.3.4 选择最佳划分的度量 96
4.3.5 决策树归纳算法 101
4.3.6 例子:Web机器人检测 102
4.3.7 决策树归纳的特点 103
4.4 模型的过分拟合 106
4.4.1 噪声导致的过分拟合 107
4.4.2 缺乏代表性样本导致的过分拟合 109
4.4.3 过分拟合与多重比较过程 109
4.4.4 泛化误差估计 110
4.4.5 处理决策树归纳中的过分拟合 113
4.5 评估分类器的性能 114
4.5.1 保持方法 114
4.5.2 随机二次抽样 115
4.5.3 交叉验证 115
4.5.4 自助法 115
4.6 比较分类器的方法 116
4.6.1 估计准确度的置信区间 116
4.6.2 比较两个模型的性能 117
4.6.3 比较两种分类法的性能 118
文献注释 118
参考文献 120
习题 122
第5章 分类:其他技术 127
5.1 基于规则的分类器 127
5.1.1 基于规则的分类器的工作原理 128
5.1.2 规则的排序方案 129
5.1.3 如何建立基于规则的分类器 130
5.1.4 规则提取的直接方法 130
5.1.5 规则提取的间接方法 135
5.1.6 基于规则的分类器的特征 136
5.2 最近邻分类器 137
5.2.1 算法 138
5.2.2 最近邻分类器的特征 138
5.3 贝叶斯分类器 139
5.3.1 贝叶斯定理 139
5.3.2 贝叶斯定理在分类中的应用 140
5.3.3 朴素贝叶斯分类器 141
5.3.4 贝叶斯误差率 145
5.3.5 贝叶斯信念网络 147
5.4 人工神经网络 150
5.4.1 感知器 151
5.4.2 多层人工神经网络 153
5.4.3 人工神经网络的特点 155
5.5 支持向量机 156
5.5.1 最大边缘超平面 156
5.5.2 线性支持向量机:可分情况 157
5.5.3 线性支持向量机:不可分情况 162
5.5.4 非线性支持向量机 164
5.5.5 支持向量机的特征 168
5.6 组合方法 168
5.6.1 组合方法的基本原理 168
5.6.2 构建组合分类器的方法 169
5.6.3 偏倚-方差分解 171
5.
试读
空间数据的重要例子是科学和工程数据集,其数据取自二维或三维网格上规则或不规则分布的点上的测量或模型输出。例如,地球科学数据集记录在各种分辨率(如每度)下经纬度球面网格点(网格单元)上测量的温度和气压(见图2-4d)。另一个例子,在瓦斯气流模拟中,可以针对模拟中的每个网格点记录流速和方向。
5.处理非记录数据大部分数据挖掘算法都是为记录数据或其变体(如事务数据和数据矩阵)设计的。通过从数据对象中提取特征,并使用这些特征创建对应于每个对象的记录,针对记录数据的技术也可以用于非记录数据。考虑前面介绍的化学结构数据。给定一个常见的子结构集合,每个化合物都可以用一个具有二元属性的记录表示,这些二元属性指出化合物是否包含特定的子结构。这样的表示实际上是事务数据集,其中事务是化合物,而项是子结构。在某些情况下,容易用记录形式表示数据,但是这类表示并不能捕获数据中的所有信息。考虑这样的时间空间数据,它由空间网格每一点上的时间序列组成。通常,这种数据存放在数据矩阵中,其中每行代表一个位置,而每列代表一个特定的时间点。然而,这种表示并不能明确地表示属性之间存在的时间联系以及对象之间存在的空间联系。但并不是说这种表示不合适,而是说分析时必须考虑这些联系。例如,在使用数据挖掘技术时,假定属性之间在统计上是相互独立的并不是一个好主意。
……