讲解Python数据分析与可视化中的九大模块,内容全面详实;
提供11个课程实训和2个完整的项目案例,理论结合实践 ;
赠送420分钟的教学视频及丰富的配套资源,便于教师教学。
超值赠送: 教学大纲、教学课件、电子教案、程序源码、教学进度表、在线教程
随着互联网的飞速发展,人们在互联网上的行为产生了海量数据,对这些数据存储、处理与分析带动了大数据技术的发展。其中,数据挖掘和分析技术可以帮助人们对庞大的数据进行相关分析,找到有价值的信息和规律,使得人们对世界的认识更快、更便捷。在数据分析领域,Python语言简单易用,第三方库强大,并提供了完整的数据分析框架,因此深受数据分析人员的青睐,Python已经当仁不让地成为数据分析人员的一把利器。因此,《Python数据分析与可视化(微课视频版)》从Python数据分析的基础知识入手,结合大量的数据分析示例,系统地介绍数据分析和可视化绘图的方法,带领读者一步步掌握Python数据分析的相关知识,提高读者解决实际问题的能力。
第3章NumPy数值计算基础
NumPy是在1995年诞生的Python库Numeric的基础上建立起来的,但真正促使NumPy发行的是Python的SciPy库。SciPy是2001年发行的一个类似于MATLAB、Maple和Mathematica等数学计算软件的Python库,它可以实现数值计算中的大多数功能,但SciPy中并没有合适的类似于Numeric中的对于基础数据对象处理的功能。于是,SciPy的开发者将SciPy中的一部分和Numeric的设计思想结合,在2005年发行了NumPy。
NumPy是Python的一种开源的数值计算扩展库。它包含很多功能,如创建n维数组(矩阵)、对数组进行函数运算、数值积分、线性代数运算、傅里叶变换和随机数产生等。
标准的Python用list(列表)保存值,可以当作数组使用,但因为列表中的元素可以是任何对象,所以浪费了CPU运算的时间和内存。NumPy的诞生弥补了这些缺陷,它提供了两种基本的对象。
ndarray(ndimensional array object): 是存储单一数据类型的多维数组;
ufunc(universal function object): 是一种能够对数组进行处理的函数。
NumPy常用的导入格式:
import numpy as np
视频讲解
3.1NumPy多维数组
3.1.1创建数组对象
通过NumPy库的array函数可以创建ndarray数组。通常来说,ndarray是一个通用的同构数据容器,即其中的所有元素都需要相同的类型。NumPy库能将数据(列表、元组、数组或其他序列类型)转换为ndarray数组。
1. 使用array函数创建数组对象
array函数的格式:
np.array(object, dtype,ndmin)
array函数的主要参数及其使用说明见表31。
表31array函数的主要参数及其说明
参 数 名 称说明
object
接收array,表示想要创建的数组
dtype
接收datatype,表示数组所需的数据类型,未给定则选择保存对象所需的最小类型,默认为Nonendmin
接收int,指定生成数组应该具有的最小维数,默认为None
【例31】创建ndarray数组。
In[1]: import numpy as np
data1 = [1,3,5,7]#列表
w1 = np.array(data1)
print('w1:',w1)
data2 = (2,4,6,8)#元组
w2 = np.array(data2)
print('w2:',w2)
data3 = [[1,2,3,4],[5,6,7,8]]#多维数组
w3 = np.array(data3)
print('w3:',w3)
Out[1]: w1: [1 3 5 7]
w2: [2 4 6 8]
w3: [[1 2 3 4]
[5 6 7 8]]
在创建数组时,NumPy会为新建的数组推断出一个合适的数据类型,并保存在dtype中,当序列中有整数和浮点数时,NumPy会把数组的dtype定义为浮点数据类型。
【例32】在array函数中指定dtype。
In[2]:w3 = np.array([1,2,3,4],dtype = 'float64')
print(w3.dtype)
Out[2]:float64
目录
第1章数据分析与可视化概述
1.1数据分析
1.2数据可视化
1.3数据分析与可视化常用工具
1.4为何选用Python进行数据分析与可视化
1.5Python数据分析与可视化常用类库
1.6Jupyter Notebook的使用
1.7本章小结
第2章Python编程基础
2.1Python语言基本语法
2.1.1基础数据类型
2.1.2变量和赋值
2.1.3运算符和表达式
2.1.4字符串
2.1.5流程控制
2.2内置数据类型
2.2.1列表
2.2.2元组
2.2.3字典
2.2.4集合
2.3函数
2.3.1函数的定义
2.3.2lambda函数
2.4文件操作
2.4.1文件处理过程
2.4.2数据的读取方法
2.4.3读取CSV文件
2.4.4文件写入与关闭
2.5本章小结
本章实训
第3章NumPy数值计算基础
3.1NumPy多维数组
3.1.1创建数组对象
3.1.2ndarray对象属性和数据转换
3.1.3生成随机数
3.1.4数组变换
3.2数组的索引和切片
3.2.1一维数组的索引
3.2.2多维数组的索引
3.3数组的运算
3.3.1数组和标量间的运算
3.3.2ufunc函数
3.3.3条件逻辑运算
3.4数组读/写
3.4.1读/写二进制文件
3.4.2读/写文本文件
3.4.3读取CSV文件
3.5NumPy中的数据统计与分析
3.5.1排序
3.5.2重复数据与去重
3.5.3常用统计函数
3.6本章小结
本章实训
第4章Pandas统计分析基础
4.1Pandas中的数据结构
4.1.1Series
4.1.2DataFrame
4.1.3索引对象
4.1.4查看DataFrame的常用属性
4.2Pandas索引操作
4.2.1重建索引
4.2.2更换索引
4.3DataFrame数据的查询与编辑
4.3.1DataFrame数据的查询
4.3.2DataFrame数据的编辑
4.4Pandas数据运算
4.4.1算术运算
4.4.2函数应用和映射
4.4.3排序
4.4.4汇总与统计
4.5数据分组与聚合
4.5.1数据分组
4.5.2数据聚合
4.5.3分组运算
4.6数据透视表
4.6.1透视表
4.6.2交叉表
4.7Pandas可视化
4.7.1线形图
4.7.2柱状图
4.7.3直方图和密度图
4.7.4散点图
4.8本章小结
本章实训
第5章Pandas数据载入与预处理
5.1数据载入
5.1.1读/写文本文件
5.1.2读/写Excel文件
5.2合并数据
5.2.1merge数据合并
5.2.2concat数据连接
5.2.3combine_first合并数据
5.3数据清洗
5.3.1检测与处理缺失值
5.3.2检测与处理重复值
5.3.3检测与处理异常值
5.3.4数据转换
5.4数据标准化
5.4.1离差标准化数据
5.4.2标准差标准化数据
5.5数据转换
5.5.1类别型数据的哑变量处理
5.5.2连续型变量的离散化
5.6本章小结
本章实训
第6章Matplotlib数据可视化基础
6.1Matplotlib简介
6.2Matplotlib绘图基础
6.2.1创建画布与子图
6.2.2添加画布内容
6.2.3绘图的保存与显示
6.3设置Pyplot的动态rc参数
6.3.1全局参数定制
6.3.2rc参数设置
6.3.3绘图的填充
6.3.4文本注解
6.4Pyplot中的常用绘图
6.4.1折线图
6.4.2散点图
6.4.3直方图
6.4.4饼图
6.4.5箱线图
6.4.6概率图
6.5词云
6.5.1安装相关的包
6.5.2词云生成过程
6.5.3词云生成示例
6.6本章小结
本章实训
第7章Seaborn可视化
7.1Seaborn简介
7.2风格设置
7.2.1Seaborn绘图设置
7.2.2Seaborn 主题设置
7.2.3设置绘图元素比例
7.3Seaborn中的常用绘图
7.3.1直方图和密度曲线图
7.3.2散点图
7.3.3箱线图
7.3.4散点图矩阵
7.3.5小提琴图
7.3.6柱状图
7.3.7多变量图
7.3.8回归图
7.4本章小结
本章实训
第8章pyecharts可视化
8.1pyecharts简介
8.2pyecharts的使用方法
8.3pyecharts常用图表
8.3.1柱状图
8.3.2饼图
8.3.3漏斗图
8.3.4散点图
8.3.5K线图
8.3.6仪表盘
8.3.7词云
8.3.8组合图表
8.4本章小结
本章实训
第9章时间序列数据分析
9.1日期和时间数据类型
9.1.1datetime构造
9.1.2数据转换
9.2时间序列基础
9.2.1时间序列构造
9.2.2索引与切片
9.3日期范围、频率和移位
9.3.1日期范围
9.3.2频率和移位
9.4时期
9.4.1时期基础
9.4.2频率转换
9.4.3时期数据转换
9.5重采样、降采样和升采样
9.5.1重采样
9.5.2降采样
9.5.3升采样
9.6本章小结
本章实训
第10章SciPy科学计算
10.1SciPy中的常数与特殊函数
10.1.1SciPy的constants模块
10.1.2SciPy的special模块
10.2SciPy中的线性代数基本运算
10.2.1基本的矩阵运算
10.2.2线性方程组求解
10.2.3行列式的计算
10.2.4范数
10.2.5特征值分解
10.2.6奇异值分解
10.3SciPy中的优化
10.3.1方程求解及求极值
10.3.2数据拟合
10.4SciPy中的稀疏矩阵处理
10.4.1稀疏矩阵的存储
10.4.2稀疏矩阵的运算
10.5SciPy中的图像处理
10.5.1图像平滑
10.5.2图像旋转和锐化
10.6本章小结
本章实训
第11章统计与机器学习
11.1Scikitlearn的主要功能
11.2分类
11.2.1决策树规约
11.2.2KNN算法
11.2.3支持向量机
11.2.4朴素贝叶斯分类
11.3聚类
11.3.1KMeans聚类
11.3.2层次聚类
11.3.3基于密度的聚类
11.4主成分分析
11.5本章小结
本章实训
第12章图像数据分析
12.1OpenCV简介与导入
12.1.1OpenCV简介
12.1.2Python中OpenCV的安装与导入
12.2cv2图像处理基础
12.2.1cv2的基本方法与属性
12.2.2cv2图像处理示例
12.3应用尺度不变特征变换
12.4使用加速鲁棒特征检测
12.5图像降噪
12.6本章小结
本章实训
第13章综合案例
13.1职业人群体检数据分析
13.2股票数据分析
温馨提示:请使用泸西县图书馆的读者帐号和密码进行登录