第 1章 Scrapy电影评论数据采集1
任务1.1 数据采集1
1.1.1 数据采集概述1
1.1.2 数据采集方法1
1.1.3 数据采集应用3
任务1.2 网络爬虫4
1.2.1 网络爬虫概述4
1.2.2 常用网络爬虫方法4
1.2.3 常用网络爬虫工具5
任务1.3 网络爬虫实战6
1.3.1 获取网页7
1.3.2 解析网页9
1.3.3 应对反爬机制11
本章习题12
第 2章 数据预处理环境安装13
任务2.1 数据预处理出现的背景及其目的13
2.1.1 数据预处理出现的背景13
2.1.2 数据预处理的目的14
任务2.2 数据预处理的流程15
2.2.1 数据清洗15
2.2.2 数据集成17
2.2.3 数据归约18
2.2.4 数据变换与数据离散化23
2.3.5 数据预处理的注意事项26
任务2.3 数据预处理的工具26
2.3.1 Python预处理环境安装27
2.3.2 Kettle的下载安装与Spoon的启动30
本章习题34
第3章 Kettle的初步使用35
任务3.1 Kettle的特点36
任务3.2 Kettle的使用36
3.2.1 转换的基本概念36
3.2.2 第 一个转换案例39
本章习题53
第4章 基于Kettle的客户信息数据预处理54
任务4.1 客户信息数据抽取54
4.1.1 从文本文件读入性别参照数据54
4.1.2 从Excel文件读入客户信息数据56
4.1.3 从MySQL数据库读取城市区号参照数据60
任务4.2 客户信息数据清洗65
4.2.1 数据排序65
4.2.2 去除重复数据66
4.2.3 处理缺失值73
4.2.4 字段清洗75
4.2.5 字符串清洗78
4.2.6 处理异常数据82
任务4.3 将客户信息数据加载至MySQL数据库88
本章习题91
第5章 基于pandas的学生信息预处理92
任务5.1 pandas详解92
5.1.1 pandas的数据结构及基本功能92
5.1.2 数据加载与存储130
任务5.2 学生信息预处理141
5.2.1 数据读取及查看141
5.2.2 索引对象144
5.2.3 数据排序145
本章习题148
第6章 使用Python对运动员信息进行预处理149
任务6.1 数据清洗149
6.1.1 处理缺失数据149
6.1.2 字符串操作156
6.1.3 中国篮球运动员的基本信息清洗163
任务6.2 数据集成168
6.2.1 数据合并的常用方法168
6.2.2 中国篮球运动员的基本信息合并182
任务6.3 数据规约183
6.3.1 数据规约方法183
6.3.2 中国篮球运动员的基本信息规约184
任务6.4 数据变换185
6.4.1 数据变换常用方法185
6.4.2 中国篮球运动员的基本信息数据变换203
本章习题206
第7章 使用Python对电影人气进行预测(构建特征工程)207
任务7.1 特征工程简介207
7.1.1 特征工程的重要性207
7.1.2 特征工程是什么208
7.1.3 特征工程的评估208
任务7.2 电影人气预测210
7.2.1 scikit-learn简介210
7.2.2 特征变换211
7.2.3 特征选择222
7.2.4 电影人气预测特征工程237
本章习题255
第8章 基于Python的销售数据仓库应用案例256
任务8.1 数据仓库简介256
8.1.1 数据仓库出现的背景及其特点256
8.1.2 数据仓库的功能257
8.1.3 数据仓库与数据库的区别258
任务8.2 数据仓库模型259
8.2.1 事实表和维度表259
8.2.2 数据模型的分类260
8.2.3 建模阶段划分260
8.2.4 常用建模方法261
8.2.5 星形模型和雪花模型262
任务8.3 数据仓库案例264
8.3.1 案例目的264
8.3.2 案例背景265
8.3.3 案例原理265
8.3.4 案例环境265
8.3.5 案例步骤265
8.3.6 案例总结273
本章习题273
第9章 Python数据分析师岗位分析274
任务9.1 了解项目背景与目标274
任务9.2 读取与清洗数据分析师岗位数据275
9.2.1 分析目标与思路275
9.2.2 数据收集276
9.2.3 数据预处理278
任务9.3 数据分析与可视化281
9.3.1 数据分析师岗位的需求趋势281
9.3.2 数据分析师岗位的热门城市Top10283
9.3.3 不同城市数据分析师岗位的薪资水平284
9.3.4 数据分析师岗位的学历要求286
任务9.4 总结287
本章习题287
展开