第1 章 大数据处理预备知识.1
1.1 人类的骄傲 1
1.2 大数据思维 1
1.3 大数据的关键技术 2
1.4 机器学习 3
1.5 训练集与测试集 4
1.6 特征表示 4
1.7 文档的相似度计算 5
1.8 贝叶斯定理 6
1.9 信息熵 7
1.10 正确率、精确率与召回率 7
1.11 ROC 曲线 .8
1.12 大数据隐私与安全 9
1.13 练习 10
第2 章 Python 技术基础11
2.1 Python 开发环境的搭建11
2.2 常用操作符 12
2.3 语句规范 13
2.4 变量与数据 13
2.5 控制语句 14
2.6 数据结构 16
2.7 函数 21
2.8 可变对象与不可变对象 23
2.9 面向对象程序设计 24
2.10 练习 31第3 章 大数据处理常用模块.32
3.1 NumPy 32
3.2 Pandas.36
3.3 Matplotlib .41
3.4 练习 50第4 章 大数据采集技术 53
4.1 网络爬虫概述 53
4.2 Requests 基础.54
4.3 XPath 与Lxml57
4.4 网页采集 60
4.5 分页采集 61
4.6 练习 63第5 章 大数据处理算法及应用 64
5.1 回归 64
5.2 决策树 73
5.3 K 近邻.80
5.4 支持向量机 84
5.5 神经网络 87
5.6 朴素贝叶斯 91
5.7 聚类 94
5.8 关联规则 98
5.9 PCA 降维 .102
5.10 机器学习流程 106
5.11 练习 118
第6 章 文本挖掘与应用 121
6.1 文本挖掘流程 121
6.2 NLTK121
6.3 TextBlob .130
6.4 Jieba134
6.5 SnowNLP139
6.6 正则表达式 ..143
6.7 词云 150
6.8 LDA 主题模型 .152
6.9 练习 156第7 章 大数据应用案例 157
7.1 泰坦尼克生存预测 157
7.2 基于用户评论的智能音箱市场分析 166
7.3 有事找政府12345 .171
7.4 基于网贷评论的用户舆情挖掘 172参考文献.178
展开