泸西县图书馆“U书快借”平台

编辑推荐

1.本书是《大数据》编委会针对校企合作的精心力作。
2.本书凝结了曙光瑞翼多年的教学经验，能够满足校企融合教学的需求。
3.本书旨在介绍大数据预处理技术的基础知识，为即将学习大数据技术的读者奠定基础。
4.本书采用任务驱动的编写方式，读者可以直接进行实验效果体验，并进行自由调整。
5.本书采用大量的实践案例，结合行业典型应用，编写行业实践。
6.本书提供丰富的教学资源，包括电子课件、实验设计等。

展开

作者简介

许桂秋，主要研究方向大数据和人工智能，已出版《大数据导论》《Python编程基础与应用》《NoSQL数据库原理与应用》《数据挖掘与机器学习》等图书。

展开

内容介绍

本书主要介绍如何利用Kettle和Python这两个具有代表性的工具进行数据预处理的相关技术与方法，包括数据抽取、数据清洗、数据集成、数据变换等。全书有9章，内容涉及数据采集、环境部署、Kettle安装及应用、pandas应用，以及数据可视化的基础内容。本书采用任务式编写形式，将大数据预处理技术的理论和实现分解到一个个任务中，融入到一个个典型案例中，让读者在完成各任务的同时掌握和理解相关内容。本书既有技术的深度，也有行业应用的广度，适合作为高等院校计算机、数据科学与大数据技术等相关专业课程的教材，也适合作为数据处理行业从业人员的参考用书。

展开

第 1章 Scrapy电影评论数据采集1
任务1．1 数据采集1
1．1．1 数据采集概述1
1．1．2 数据采集方法1
1．1．3 数据采集应用3
任务1．2 网络爬虫4
1．2．1 网络爬虫概述4
1．2．2 常用网络爬虫方法4
1．2．3 常用网络爬虫工具5
任务1．3 网络爬虫实战6
1．3．1 获取网页7
1．3．2 解析网页9
1．3．3 应对反爬机制11
本章习题12
第 2章数据预处理环境安装13
任务2．1 数据预处理出现的背景及其目的13
2．1．1 数据预处理出现的背景13
2．1．2 数据预处理的目的14
任务2．2 数据预处理的流程15
2．2．1 数据清洗15
2．2．2 数据集成17
2．2．3 数据归约18
2．2．4 数据变换与数据离散化23
2．3．5 数据预处理的注意事项26
任务2．3 数据预处理的工具26
2．3．1 Python预处理环境安装27
2．3．2 Kettle的下载安装与Spoon的启动30
本章习题34
第3章 Kettle的初步使用35
任务3．1 Kettle的特点36
任务3．2 Kettle的使用36
3．2．1 转换的基本概念36
3．2．2 第一个转换案例39
本章习题53
第4章基于Kettle的客户信息数据预处理54
任务4．1 客户信息数据抽取54
4．1．1 从文本文件读入性别参照数据54
4．1．2 从Excel文件读入客户信息数据56
4．1．3 从MySQL数据库读取城市区号参照数据60
任务4．2 客户信息数据清洗65
4．2．1 数据排序65
4．2．2 去除重复数据66
4．2．3 处理缺失值73
4．2．4 字段清洗75
4．2．5 字符串清洗78
4．2．6 处理异常数据82
任务4．3 将客户信息数据加载至MySQL数据库88
本章习题91
第5章基于pandas的学生信息预处理92
任务5．1 pandas详解92
5．1．1 pandas的数据结构及基本功能92
5．1．2 数据加载与存储130
任务5．2 学生信息预处理141
5．2．1 数据读取及查看141
5．2．2 索引对象144
5．2．3 数据排序145
本章习题148
第6章使用Python对运动员信息进行预处理149
任务6．1 数据清洗149
6．1．1 处理缺失数据149
6．1．2 字符串操作156
6．1．3 中国篮球运动员的基本信息清洗163
任务6．2 数据集成168
6．2．1 数据合并的常用方法168
6．2．2 中国篮球运动员的基本信息合并182
任务6．3 数据规约183
6．3．1 数据规约方法183
6．3．2 中国篮球运动员的基本信息规约184
任务6．4 数据变换185
6．4．1 数据变换常用方法185
6．4．2 中国篮球运动员的基本信息数据变换203
本章习题206
第7章使用Python对电影人气进行预测（构建特征工程）207
任务7．1 特征工程简介207
7．1．1 特征工程的重要性207
7．1．2 特征工程是什么208
7．1．3 特征工程的评估208
任务7．2 电影人气预测210
7．2．1 scikit-learn简介210
7．2．2 特征变换211
7．2．3 特征选择222
7．2．4 电影人气预测特征工程237
本章习题255
第8章基于Python的销售数据仓库应用案例256
任务8．1 数据仓库简介256
8．1．1 数据仓库出现的背景及其特点256
8．1．2 数据仓库的功能257
8．1．3 数据仓库与数据库的区别258
任务8．2 数据仓库模型259
8．2．1 事实表和维度表259
8．2．2 数据模型的分类260
8．2．3 建模阶段划分260
8．2．4 常用建模方法261
8．2．5 星形模型和雪花模型262
任务8．3 数据仓库案例264
8．3．1 案例目的264
8．3．2 案例背景265
8．3．3 案例原理265
8．3．4 案例环境265
8．3．5 案例步骤265
8．3．6 案例总结273
本章习题273
第9章 Python数据分析师岗位分析274
任务9．1 了解项目背景与目标274
任务9．2 读取与清洗数据分析师岗位数据275
9．2．1 分析目标与思路275
9．2．2 数据收集276
9．2．3 数据预处理278
任务9．3 数据分析与可视化281
9．3．1 数据分析师岗位的需求趋势281
9．3．2 数据分析师岗位的热门城市Top10283
9．3．3 不同城市数据分析师岗位的薪资水平284
9．3．4 数据分析师岗位的学历要求286
任务9．4 总结287
本章习题287

展开