数据挖掘理论与技术作者:罗森林,马俊,潘丽敏 编著出版时间:2013年版内容简介 《数据挖掘理论与技术》梳理了数据挖掘理论与技术的 知识点,注重领域内核心思想、原理、方法的论述及国内外最 新研究进展的融入,内容上系统、全面、先进。全书共9章,主要包括数据 挖掘基础知识,概率论与 数理统计,数据挖掘效果评价,数据预处理,数据仓库,数据分类分析,数据聚类分析,关联规则发 现,统计预测方法等。在讨论算法的同时引入应用实例,强调应用方法包 括算法特点、参数选择、结 果评价等方面的分析,理论联系实际,有利于算法的快速掌握和有效运用。《数据挖掘理论与技术》可供计算机科学与技术、生命信息工程、软 件工程、通信与信息系统等相关学科、专业的学 生作为教材或参考书,同时也可供科研人员参考和感兴趣者自学使用。目录第1章 绪论1.1 数据挖掘产生的背景1.1.1 技术背景1.1.2 理论基础1.1.3 数据挖掘相关概念1.2 数据挖掘知识基础1.2.1 基本概念及特点1.2.2 数据集1.2.3 功能与分类1.2.4 任务与过程1.2.5 方法与步骤1.3 数据挖掘简史与现状1.3.1 简史1.3.2 现状1.4 数据挖掘的技术工具1.4.1 技术工具1.4.2 工具选择1.5 数据挖掘的应用1.5.1 典型应用1.5.2 高级应用1.6 技术难点与发展趋势1.6.1 常见误解1.6.2 技术难点1.6.3 发展趋势1.7 本章小结思考题第2章 概率统计理论基础2.1 引言2.2 概率统计知识基础2.3 随机变量的分布函数2.3.1 多维随机变量2.3.2 条件分布2.4 统计推理2.5 参数估计2.5.1 估计理论2.5.2 最大似然估计2.5.3 贝叶斯估计2.6 假设检验2.7 数据采样方法2.8 本章小结思考题第3章 数据挖掘效果评价3.1 引言3.2 模型的评分函数3.2.1 基本概念3.2.2 预测模型的评分函数3.2.3 描述模型的评分函数3.3 模型的比较与验证3.3.1 模型比较3.3.2 模型验证3.4 模型的性能提升3.4.1 增量学习3.4.2 半监督学习3.4.3 迁移学习3.4.4 反模型3.4.5 Boosting3.5 模型的建立与使用3.5.1 模型的建立3.5.2 模型的理解3.5.3 模型的使用3.6 本章小结思考题第4章 数据预处理4.1 引言4.2 数据预处理知识基础4.3 数据清理4.3.1 遗漏值4.3.2 噪声数据4.3.3 不一致数据4.4 数据集成4.5 数据转换4.6 数据规约4.6.1 数据方聚集4.6.2 维归约4.6.3 数据压缩4.6.4 数值归约4.7 数据离散4.8 应用实例分析4.8.1 腹围空缺数值归一化弥补方法4.8.2 Ⅱ型糖尿病数据预处理4.9 本章小结思考题第5章 数据仓库5.1 引言5.2 数据仓库知识基础5.2.1 基本概念5.2.2 基本作用5.2.3 与数据挖据的关系5.3 数据仓库中的模型5.3.1 概念模型5.3.2 物理模型5.3.3 元数据模型5.3.4 多维数据模型5.4 数据仓库系统结构5.4.1 组成5.4.2 数据仓库概念结构5.4.3 数据仓库结构类型5.5 OLAP分析5.5.1 知识基础5.5.2 多维分析5.5.3 OLAP结构5.5.4 多维数据库5.5.5 关系数据库5.6 本章小结思考题第6章 数据分类分析6.1 引言6.2 分类分析知识基础6.2.1 基本概念6.2.2 基本作用6.2.3 评价方法6.3 主要技术方法及分析6.4 贝叶斯分类6.4.1 朴素贝叶斯分类法6.4.2 贝叶斯网络6.4.3 动态贝叶斯网络6.5 基于决策树的算法6.5.1 基本思想6.5.2 ID3算法6.5.3 C4.5算法6.5.4 SLIQ算法6.5.5 SPRINT算法6.6 神经网络与遗传算法6.6.1 神经网络6.6.2 遗传算法6.7 支持向量机6.8 粗糙集与模糊集6.8.1 粗糙集6.8.2 模糊集6.9 最大熵模型6.10 应用实例分析6.10.1 汉语句义类型识别6.10.2 特定音频事件识别6.11 本章小结思考题第7章 数据聚类分析7.1 引言7.2 聚类分析知识基础7.2.1 基本概念7.2.2 基本作用7.2.3 近邻测度7.2.4 评价方法7.3 主要技术方法及分析7.4 基于划分的算法7.4.1 基本思想7.4.2 K-means算法7.4.3 K-medoids算法7.4.4 CLARANS算法7.5 基于层次的算法7.5.1 基本思想7.5.2 BIRCH算法7.5.3 CURE算法7.5.4 ROCK算法7.5.5 Chameleon算法7.6 基于密度的算法7.6.1 基本思想7.6.2 DBSCAN算法7.6.3 OPTICS算法7.6.4 DENCLUE算法7.7 基于网格的算法7.7.1 基本思想7.7.2 STING算法7.7.3 Wave Cluster算法7.7.4 CLIQUE算法7.8 基于模型的算法7.8.1 基本思想7.8.2 EM算法7.8.3 COBWEB算法7.8.4 自组织神经网络7.9 应用实例分析7.9.1 镜头聚类7.9.2 文本聚类7.10 本章小结思考题第8章 关联规则发现8.1 引言8.2 关联规则发现知识基础8.2.1 基本概念8.2.2 评价方法8.2.3 注意事项8.3 主要技术方法及分析8.4 关联规则的基本算法8.4.1 Apriori算法8.4.2 FP-树频集算法8.4.3 CloSpan8.5 并行和分布式关联规则算法8.5.1 并行关联规则8.5.2 分布式关联规则8.6 多层次关联规则算法8.7 数量关联规则算法8.8 应用实例分析——蠕虫检测8.9 本章小结思考题第9章 统计预测方法9.1 引言9.2 统计预测方法知识基础9.3 主要技术方法及分析9.4 回归预测方法9.4.1 线性和多元回归9.4.2 非线性回归9.5 Box-Jenkins回归9.6 隐马模型9.6.1 隐马尔可夫模型9.6.2 隐半马尔可夫模型9.7 应用实例分析9.7.1 Ⅱ型糖尿病发病危险状态预测9.7.2 关键人物判定9.8 本章小结思考题参考文献 上一篇: C语言程序设计实验与实训教程 下一篇: iOS传感器应用开发最佳实践