目录
第1章绪论
1.1大数据挖掘及应用
1.1.1数据挖掘技术
1.1.2数据挖掘的发展趋势和研究前沿
1.1.3大数据及其应用
1.1.4集群系统与并行计算
1.1.5Spark并行计算模型
1.1.6大数据挖掘技术的应用
1.2离群数据挖掘及研究动态
1.2.1离群数据挖掘
1.2.2分类数据离群挖掘
1.2.3混合属性数据离群挖掘
1.2.4离群数据并行挖掘及性能优化
1.2.5离群数据挖掘的应用
1.3本章小结
第2章基于加权特征分组的高维分类数据离群挖掘
2.1引言
2.2相关工作
2.2.1离群检测
2.2.2高维数据离群检测
2.2.3分类数据离群检测
2.3离群检测前期准备
2.3.1分类数据和问题陈述
2.3.2计算特征的相关性
2.3.3特征分组算法
2.4离群值检测算法WATCH
2.4.1特征加权
2.4.2离群得分
2.4.3离群检测算法
2.4.4时间复杂度分析
2.5实验分析
2.5.1数据集
2.5.2特征分组评估
2.5.3特征分组结果分析
2.5.4离群点检测的精度
2.5.5离群检测效率
2.5.6可解释性
2.6本章小结
第3章基于Spark的分类数据并行离群挖掘
3.1引言
3.2基本概念
3.2.1高维分类数据特征组
3.2.2MapReduce和Spark RDD
3.3特征分组
3.3.1特征分组的基本概念
3.3.2基于Spark的特征分组的并行实现
3.4基于Spark的POS算法
3.4.1基于Spark的POS算法的工作流程
3.4.2基于Spark的特征分组
3.4.3并行离群挖掘
3.5POS的性能调优
3.5.1RDD缓存
3.5.2参数调优
3.6实验分析
3.6.1数据集
3.6.2伪分布环境下的挖掘性能
3.6.3RDD缓存的影响
3.6.4特征组的数量对算法的影响
3.6.5算法的可扩展性
3.6.6算法的可伸缩性
3.7本章小结
第4章基于互信息的混合属性加权离群挖掘算法
4.1引言
4.2相关工作
4.3基于互信息的混合属性相关性度量及加权机制
4.3.1互信息计算
4.3.2混合属性加权机制
4.4基于互信息的混合属性加权离群检测算法
4.4.1数值空间离群得分
4.4.2分类空间离群得分
4.4.3混合属性加权离群检测算法
4.5实验结果与分析
4.5.1混合属性数据离群检测分析
4.5.2数值型数据离群检测分析
4.5.3分类型数据离群检测分析
4.6本章小结
第5章基于Spark的并行互信息计算及其性能优化
5.1引言
5.2相关工作
5.2.1互信息及其并行化
5.2.2性能优化
5.3并行互信息计算及性能优化
5.3.1列变换
5.3.2数据倾斜
5.4MiCS算法的具体实现
5.4.1列变换及虚拟划分策略
5.4.2互信息计算
5.5实验与分析
5.5.1应用背景
5.5.2数据集
5.5.3列变换对MiCS的影响
5.5.4虚拟分区对MiCS的影响
5.6本章小结
第6章冷轧辊制造过程离群数据挖掘原型系统
6.1引言
6.2系统需求与总体设计
6.2.1冷轧辊制造过程的复杂性
6.2.2冷轧辊的失效分析
6.2.3影响冷轧辊生产过程质量的因素
6.2.4系统的软件体系结构及功能
6.3数据收集及预处理
6.3.1数据收集
6.3.2数据预处理
6.4冷轧辊制造过程离群检测及质量分析
6.5本章小结
第7章总结与展望
7.1总结
7.2展望
温馨提示:请使用泸西县图书馆的读者帐号和密码进行登录