泸西县图书馆“U书快借”平台

作者简介

　　白宁超，大数据工程师，现任职于四川省计算机研究院，研究方向包括数据分析、自然语言处理和深度学习。主持和参与国家自然基金项目和四川省科技支撑计划项目多项，出版专著1部。
　　
　　唐聃，教授，硕士生导师，成都信息工程大学软件工程学院院长，四川省学术和技术带头人后备人选。研究方向包括编码理论与人工智能，《自然语言处理理论与实战》一书作者。
　　
　　文俊，硕士，大数据算法工程师，现任职于成都广播电视台橙视传媒大数据中心。曾以技术总监身份主持研发多个商业项目，负责公司核心算法模型构建。主要研究方向包括数据挖掘、自然语言处理、深度学习及云计算。

展开

内容介绍

　　《Python数据预处理技术与实践》基础理论和工程应用相结合，循序渐进地介绍了数据预处理的基本概念、基础知识、工具应用和相关案例，包括网络爬虫、数据抽取、数据清洗、数据集成、数据变换、数据向量化、数据规约等知识，书中针对每个知识点，都给出了丰富的教学实例和实现代码，最后，通过一个新闻文本分类的实际项目讲解了数据预处理技术在实际中的应用。
　　《Python数据预处理技术与实践》的特点是几乎涵盖了数据预处理的各种常用技术及主流工具应用，示例代码很丰富，适合于大数据从业者、AI技术开发人员以及高校大数据专业的学生使用。

展开

第1章概述
1．1 Python数据预处理
1．1．1 什么是数据预处理
1．1．2 为什么要做数据预处理
1．1．3 数据预处理的工作流程
1．1．4 数据预处理的应用场景
1．2 开发工具与环境
1．2．1 Anaconda介绍与安装
1．2．2 SUblimeTeXt
1．3 实战案例：第一个中文分词程序
1．3．1 中文分词
1．3．2 实例介绍
1．3．3 结巴实现中文分词
1．4 本章小结

第2章 Python科学计算工具
2．1 NumPy
2．1．1 NumPy的安装和特点
2．1．2 NumPy数组
2．1．3 Numpy的数学函数
2．1．4 NumPy线性代数运算
2．1．5 NumPyIO操作
2．2 SCiPy
2．2．1 SciPy的安装和特点
2．2．2 SciPyLinalg
2．2．3 SciPy文件操作
2．2．4 SciPy插值
2．2．5 SCiPyNdimage
2．2．6 SciPy优化算法
2．3 Pandas
2．3．1 Pandas的安装和特点
2．3．2 Pandas的数据结构
2．3．3 Pandas的数据统计
2．3．4 Pandas处理丢失值
2．3．5 Pandas处理稀疏数据
2．3．6 Pandas的文件操作
2．3．7 Pandas可视化
2．4 本章小结

第3章数据采集与存储
3．1 数据与数据采集
3．2 数据类型与采集方法
3．2．1 结构化数据
3．2．2 半结构化数据
3．2．3 非结构化数据
3．3 网络爬虫技术
3．3 ．1前置条件
3．3．2 Scrapy技术原理
3．3．3 Scrapy新建爬虫项目
3．3．4 爬取网站内容
3．4 爬取数据以JSON格式进行存储
3．5 爬取数据的MySQL存储
3．5．1 MySQL与Navicat部署
3．5．2 MySQL存储爬虫数据
3．6 网络爬虫技术扩展
3．7 本章小结
……

第4章文本信息抽取
第5章文本数据清洗
第6章中文分词技术
第7章文本特征向量化
第8章 Gensim文本向量化
第9章 PCA降维技术
第10章数据可视化
第11章竞赛神器XGBoost
第12章 XGBoost实现新闻文本分类
参考文献

展开