本书主要介绍大数据分析与应用,包括数据驱动程序设计、数据前处理、统计机器学习基础、无监督式学习、监督式学习、其他学习方式(集成学习、深度学习、强化学习)等6章内容。
本书特色:文字说明、程序代码与执行结果等交叉呈现,有助于阅读理解;提供来自不同领域的资料处理与分析范例;同时掌握数据分析两大主流工具—— R 与 Python;凸显第四代与第三代程序语言的不同之处。
本书读者对象:计算机、人工智能、大数据等相关专业的本科生、研究生,对大数据分析与应用感兴趣的社会读者,以及大数据分析与应用行业的工程技术人员。
目 录
第1章 数据驱动程序设计 1
1.1 套件管理 1
1.1.1 基本套件 5
1.1.2 建议套件 6
1.1.3 贡献套件 9
1.2 环境与辅助说明 11
1.3 R语言数据对象 17
1.3.1 向量 18
1.3.2 矩阵 22
1.3.3 数组 25
1.3.4 列表 28
1.3.5 数据集 31
1.3.6 因子 38
1.3.7 R语言原生数据对象取值 42
1.3.8 R语言衍生数据对象 49
1.4 Python语言数据对象 54
1.4.1 Python语言原生数据对象处理 54
1.4.2 Python语言衍生数据对象取值 62
1.4.3 Python语言类别变量编码 68
1.5 向量化与隐式循环 71
1.6 编程范式与面向对象概念 77
1.6.1 R语言S3类别 80
1.6.2 Python语言面向对象 84
1.7 控制流程与自定义函数 89
1.7.1 控制流程 89
1.7.2 自定义函数 92
1.8 数据导入与导出 99
1.8.1 R语言数据导入及导出 99
1.8.2 Python语言数据导入及导出 101
1.9 程序调试与效率监测 105
第2章 数据前处理 112
2.1 数据管理 112
2.1.1 R语言数据组织与排序 113
2.1.2 Python语言数据排序 119
2.1.3 R语言数据变形 123
2.1.4 Python语言数据变形 127
2.1.5 R语言数据清理 128
2.1.6 Python语言数据清理 151
2.2 数据摘要与汇总 154
2.2.1 摘要统计量 155
2.2.2 R语言群组与摘要 163
2.2.3 Python语言群组与摘要 172
2.3 特征工程 183
2.3.1 特征转换与移除 183
2.3.2 特征提取的主成分分析 198
2.3.3 特征选择 211
2.3.4 结语 216
2.4 大数据处理概念 217
2.4.1 文本数据处理 218
2.4.2 Hadoop分布式文件系统 232
2.4.3 Spark集群计算框架 233
第3章 统计机器学习基础 237
3.1 随机误差模型 238
3.1.1 统计机器学习类型 243
3.1.2 过度拟合 244
3.2 模型性能评量 247
3.2.1 回归模型性能指标 247
3.2.2 分类模型性能指标 250
3.2.3 模型性能可视化 259
3.3 模型选择与评定 263
3.3.1 重抽样与数据分割方法 263
3.3.2 单类模型参数调校 273
3.3.3 比较不同类的模型 287
3.4 相似性与距离 290
3.5 相关与独立 293
3.5.1 数值变量与顺序尺度类别变量 293
3.5.2 名目尺度类别变量 298
3.5.3 类别变量可视化关联检验 307
第4章 无监督式学习 315
4.1 数据可视化 316
4.2 关联形态挖掘 324
4.2.1 关联形态评估准则 324
4.2.2 在线音乐城关联规则分析 325
4.2.3 结语 333
4.3 聚类分析 334
4.3.1 k均值聚类法 335
4.3.2 阶层式聚类 346
4.3.3 密度聚类 351
4.3.4 聚类结果评估 355
4.3.5 结语 356
第5章 监督式学习 357
5.1 线性回归与分类 358
5.1.1 多元线性回归 358
5.1.2 偏最小二乘法回归 379
5.1.3 岭回归、套索回归与弹性网罩惩罚模型 385
5.1.4 线性判别分析 392
5.1.5 逻辑回归分类与广义线性模型 398
5.2 非线性分类与回归 401
5.2.1 朴素贝叶斯分类 401
5.2.2 k近邻法分类 413
5.2.3 支持向量机分类 422
5.2.4 分类与回归树 445
第6章 其他学习方式 479
6.1 集成学习 479
6.1.1 拔靴集成法 480
6.1.2 多模激发法 480
6.1.3 随机森林 489
6.1.4 结语 490
6.2 深度学习 490
6.2.1 人工神经网络简介 491
6.2.2 多层感知机 493
6.2.3 卷积神经网络 502
6.2.4 递归神经网络 507
6.2.5 自动编码器 510
6.2.6 受限玻尔兹曼机 511
6.2.7 深度信念网络 513
6.2.8 深度学习参数调校 513
6.3 强化学习 516
参考文献 521
索引 523
温馨提示:请使用泸西县图书馆的读者帐号和密码进行登录