第 1章 Web服务器日志分析项目001
1.1 任务一:需求分析002
1.2 任务二:技术方案设计004
1.3 任务三:使用Flume采集日志数据006
1.4 任务四:使用MapReduce清洗数据008
1.5 任务五:使用Hive分析数据012
1.6 任务六:使用Sqoop迁移数据016
1.7 任务七:Java+ECharts数据可视化018
1.8 答疑解惑039
1.9 拓展练习041
第 2章 招聘网站数据分析项目043
2.1 大赛简介044
2.2 任务一:需求分析048
2.3 任务二:项目流程050
2.4 任务三:使用Python“爬取”招聘网站数据051
2.5 任务四:使用MapReduce预处理数据056
2.6 任务五:使用Hive分析数据062
2.7 任务六:使用Sqoop导出数据065
2.8 任务七:Flask+ECharts数据可视化067
2.9 任务八:编写分析报告079
2.10 答疑解惑080
2.11 拓展练习084
第3章 电商网站实时数据分析项目086
3.1 任务一:需求分析087
3.2 任务二:项目方案设计088
3.3 任务三:使用Flume+Kafka实时收集数据089
3.4 任务四:使用Spark实时计算数据091
3.5 任务五:Java+ECharts数据可视化101
3.6 答疑解惑113
3.7 拓展练习114
第4章 金融大数据分析项目116
4.1 大赛简介117
4.2 任务一:需求分析119
4.3 任务二:项目流程121
4.4 任务三:使用Spark抽取离线数据123
4.5 任务四:使用Spark统计离线数据125
4.6 任务五:使用Flume+Kafka实时采集数据128
4.7 任务六:使用Flink实时计算数据130
4.8 任务七:Vue.js+Java+ECharts数据可视化136
4.9 任务八:使用Spark ML数据挖掘156
4.10 任务九:编写分析报告160
4.11 答疑解惑162
4.12 拓展练习163
附录165
附录1 Hadoop安装部署和配置165
附录2 掌握HDFS Shell操作175
附录3 通过WordCount熟悉MapReduce182
附录4 深入理解MapReduce186
附录5 Flume安装部署和配置199
附录6 Hive安装部署和配置200
附录7 Sqoop安装部署和配置201
附录8 Hadoop高可用集群环境安装部署和配置203
附录9 Hadoop集群节点动态管理212
附录10 Kafka安装部署和配置214
附录11 Spark安装部署和配置217
附录12 Spark RDD算子220
附录13 通过WordCount熟悉Spark RDD230
附录14 Flink安装部署和配置231
展开