泸西县图书馆“U书快借”平台

编辑推荐

1.本书由三位美国西北大学教授共同撰写，分享他们多年积累的课程教学和实践经验。该教材获得多个著名大学专家教授联袂推荐。

2.该书英文版配套了丰富的教辅资源，包括示例代码、数据集、幻灯片和习题解答。需要使用本书作为教材的教师可以向剑桥大学出版社北京代表处申请solutions@cambridge.org，或者在网上www.cambridge.org/watt申请。

3.本书可作为大学相关专业的教材，既适合相关专业的本科生和研究生，又适合相关领域的工程师和研究人员。

展开

作者简介

杰瑞米·瓦特（Jeremy Watt）拥有美国西北大学电气工程专业博士学位，现在在西北大学教授机器学习、深度学习、数学优化和强化学习等课程。 雷萨·博哈尼（Reza Borhani）拥有美国西北大学电气工程专业博士学位，现在在西北大学教授机器学习和深度学习相关课程。 阿格洛斯·K. 卡萨格罗斯（Aggelos K. Katsaggelos）是美国西北大学计算机科学与电气工程系Joseph Cummings名誉教授、图像和视频处理实验室负责人。他是IEEE、SPIE、EURASIP和OSA会员，并于2000年获得了IEEE第三枚千年奖章。 译者简介 谢刚，贵州师范大学大数据与计算机科学学院教授，贵州大学“计算机软件与理论”专业工学博士，贵州省“千层次”创新型人才。长期从事人工智能等领域的研究工作，参与国家项目十余项，发表论文二十余篇，指导学生参加比赛并多次获奖。 杨波，贵阳学院数学与信息科学学院教授，贵州大学“计算机软件与理论”专业工学博士。主要研究方向为软件形式化、知识表示与推理、数据挖掘，在国内外学术刊物及会议上发表研究论文十余篇。 任福佳，贵州师范大学大数据与计算机科学学院副教授。主要研究方向为计算机图像处理、深度学习，在国内外学术刊物及会议上发表研究论文十余篇。

展开

译者序 前言 致谢 作译者简介 第1章机器学习概论1 1.1引言1 1.2利用机器学习方法区分猫和狗1 1.3机器学习问题的基本体系4 1.3.1监督学习5 1.3.2无监督学习10 1.4数学优化11 1.5小结11 第一部分数学优化 第2章零阶优化技术142.1引言14 2.2零阶最优性条件15 2.3全局优化方法16 2.4局部优化方法18 2.4.1概览18 2.4.2一般框架18 2.4.3步长参数19 2.5随机搜索20 2.5.1概览21 2.5.2步长控制21 2.5.3基本步长规则23 2.5.4递减步长规则24 2.5.5随机搜索和维度灾难25 2.6坐标搜索和下降法26 2.6.1坐标搜索26 2.6.2坐标下降26 2.7小结27 2.8习题28 第3章一阶优化技术303.1引言30 3.2一阶最优性条件30 3.2.1可手工求解的一阶方程组的特例32 3.2.2坐标下降和一阶最优性条件33 3.3一阶泰勒级数的几何图形35 3.3.1超平面35 3.3.2最陡上升与最陡下降方向35 3.3.3梯度和最陡上升/下降方向36 3.4梯度的高效计算36 3.5梯度下降37 3.5.1梯度下降法的基本步长选择39 3.5.2代价函数历史图中的振荡：不一定总是坏事41 3.5.3收敛准则42 3.5.4Python实现43 3.6梯度下降法的固有缺陷43 3.6.1（负）梯度方向的缺陷是如何产生的44 3.6.2（负）梯度方向44 3.6.3梯度下降法的之字形走向45 3.6.4梯度下降法中的 “慢爬”现象46 3.7小结48 3.8习题48 第4章二阶优化技术51 4.1二阶最优性条件51 4.2二阶泰勒级数的几何形状53 4.2.1单输入二次函数的一般形状53 4.2.2多输入二次函数的一般形状53 4.2.3局部曲率和二阶泰勒级数54 4.3牛顿法55 4.3.1下降方向55 4.3.2算法57 4.3.3确保数值稳定性59 4.3.4步长选择60 4.3.5牛顿法作为一种zerofinding算法60 4.3.6Python实现61 4.4牛顿法的固有缺陷62 4.4.1最小化非凸函数62 4.4.2扩展的限制62 4.5小结63 4.6习题63 第二部分线性学习 第5章线性回归685.1引言68 5.2最小二乘法线性回归68 5.2.1符号和建模68 5.2.2最小二乘代价函数69 5.2.3最小二乘代价函数的最小化70 5.2.4Python实现72 5.3最小绝对偏差74 5.3.1最小二乘对离群点的敏感性74 5.3.2用绝对误差代替平方误差75 5.4回归质量度量76 5.4.1使用训练得到的模型进行预测76 5.4.2判断训练模型的质量77 5.5加权回归78 5.5.1处理副本78 5.5.2置信度加权79 5.6多输出回归79 5.6.1符号和建模79 5.6.2代价函数80 5.6.3Python实现81 5.7小结82 5.8习题82 5.9尾注84 第6章线性二分类问题866.1引言86 6.2逻辑回归和交叉熵代价函数86 6.2.1符号和建模86 6.2.2拟合一个非连续阶梯函数87 6.2.3逻辑sigmoid函数89 6.2.4使用最小二乘代价函数的逻辑回归89 6.2.5使用交叉熵代价函数的逻辑回归90 6.2.6最小化交叉熵代价函数91 6.2.7Python实现92 6.3逻辑回归和Softmax 代价函数92 6.3.1不同的标签，同样的故事93 6.3.2Python实现94 6.3.3含噪声的分类数据集96 6.4感知机96 6.4.1感知机代价函数96 6.4.2最小化感知机代价函数98 6.4.3感知机的Softmax近似98 6.4.4Softmax代价函数和线性可分离数据集99 6.4.5归一化特征相关权值100 6.4.6二分类问题的正则化102 6.5支持向量机103 6.5.1边界感知机103 6.5.2与Softmax代价函数的关系104 6.5.3最大边距决策边界105 6.5.4硬边界和软边界SVM问题106 6.5.5SVM和含噪数据107 6.6哪种方法能产生最好的结果108 6.7分类交叉熵代价函数108 6.7.1采用onehot编码的分类标签108 6.7.2非线性度的选择109 6.7.3代价函数的选择109 6.8分类质量指标110 6.8.1使用训练好的模型进行预测110 6.8.2置信度评分110 6.8.3利用准确率评价训练模型的质量111 6.8.4利用平衡准确率评价训练模型的质量112 6.8.5混淆矩阵和附加的质量指标113 6.9加权二分类问题114 6.9.1加权二分类115 6.9.2按置信度对点进行加权处理115 6.9.3处理类不平衡问题116 6.10小结117 6.11习题117 第7章线性多分类问题1197.1引言119 7.2OneversusAll多分类问题119 7.2.1符号和建模119 7.2.2训练C个OneversusAll分类器119 7.2.3情形1：点在单个分类器的正侧120 7.2.4情形2：点在一个以上分类器的正侧121 7.2.5情形3：点不在任何分类器的正侧122 7.2.6综合应用123 7.2.7OneversusAll算法124 7.3多分类问题与感知机125 7.3.1多分类感知机代价函数125 7.3.2最小化多分类感知机代价函数126 7.3.3多分类感知机代价函数的替代公式126 7.3.4多分类感知机的正则化问题127 7.3.5多分类Softmax代价函数127 7.3.6最小化多分类 Softmax代价函数128 7.3.7多分类Softmax代价函数的替代公式128 7.3.8正则化与多分类 Softmax代价函数129 7.3.9Python实现129 7.4哪种方法能产生最好的结果130 7.5分类交叉熵代价函数131 7.5.1离散概率分布131 7.5.2指数归一化132 7.5.3指数归一化符号距离132 7.5.4分类和分类交叉熵代价函数133 7.6分类质量指标135 7.6.1利用训练好的模型进行预测135 7.6.2置信度评分136 7.6.3利用准确率评价训练模型的质量136 7.6.4处理不平衡类的高级质量指标136 7.7加权多分类问题138 7.8随机和小批量学习138 7.9小结139 7.10习题140 第8章线性无监督学习142 8.1引言142 8.2固定的生成集、正交和投影142 8.2.1符号142 8.2.2使用固定生成集完美地表示数据143 8.2.3使用固定正交生成集完美地表示数据144 8.2.4使用固定生成集不完美地表示数据145 8.3线性自动编码器和主成分分析145 8.3.1学习合适的生成集146 8.3.2线性自动编码146 8.3.3主成分分析147 8.3.4Python实现149 8.4推荐系统149 8.4.1动机149 8.4.2符号和建模150 8.5K均值聚类150 8.5.1通过簇表示数据集151 8.5.2学习表示数据的簇152 8.6通用矩阵分解技术154 8.6.1无监督学习和矩阵分解问题154 8.6.2更多的变体156 8.7小结157 8.8习题157 8.9尾注158 8.9.1自动编码器的最小值都是正交矩阵158 8.9.2主成分的形式推导159 第9章特征工程和特征选择161 9.1引言161 9.2直方图特征161 9.2.1分类数据的直方图特征162 9.2.2文本数据的直方图特征163 9.2.3图像数据的直方图特征165 9.2.4音频数据的直方图特征169 9.3通过标准归一化实现特征缩放170 9.3.1标准归一化170 9.3.2标准归一化模型173 9.4在数据集中估算缺失值173 9.5通过PCA白化进行特征缩放173 9.5.1PCA白化：概览174 9.5.2PCA白化：技术细节174 9.5.3PCA白化模型176 9.6利用提升法进行特征选择176 9.6.1基于提升法的特征选择176 9.6.2利用提升法选择正确数量的特征177 9.6.3提升法的效率179 9.6.4从残差视角理解提升法回归179 9.7基于正则化的特征选择179 9.7.1使用权值向量范数进行正则化179 9.7.2利用1正则化进行特征选择180 9.7.3选择合适的正则化参数181 9.7.4比较正则化和提升法182 9.8小结182 9.9习题183 第三部分非线性学习 第10章非线性特征工程原理18610.1引言186 10.2非线性回归186 10.2.1建模原理186 10.2.2特征工程188 10.2.3Python实现190 10.3非线性多输出回归191 10.3.1建模原理191 0.3.2特征工程192 10.3.3Python实现193 10.4非线性二分类问题193 10.4.1建模原理193 10.4.2特征工程194 10.4.3Python实现196 10.5非线性多分类问题196 0.5.1建模原理197 10.5.2特征工程198 10.5.3Python实现199 10.6非线性无监督学习199 10.6.1建模原理199 10.6.2特征工程200 10.7小结201 10.8习题201 第11章特征学习原理20511.1引言205 1.1.1非线性特征工程的限制205 11.1.2内容概览206 11.1.3特征学习的复杂度刻度盘比喻206 11.2通用逼近器207 11.2.1完美数据207 11.2.2通用逼近的生成集类比209 11.2.3常用的通用逼近器213 11.2.4容量刻度盘和优化刻度盘215 11.3真实数据的通用逼近217 11.3.1典型例子218 11.3.2再论容量刻度盘和优化刻度盘222 11.3.3新度量工具的出现224 11.3.4验证错误225 11.4简单的交叉验证226 11.4.1概览226 11.4.2简单交叉验证的问题230 11.5通过提升法进行有效的交叉验证230 11.5.1概览230 11.5.2技术细节232 11.5.3早停法234 11.5.4廉价但有效的增强234 11.5.5与特征选择的相似性235 11.5.6带有回归的残差视角236 11.6借助正则化的高效交叉验证237 11.6.1概览237 11.6.2基于早停法的正则化239 11.6.3基于正则化器的方法242 11.6.4与特征选择正则化的相似性244 11.7测试数据245 11.7.1过拟合验证数据245 11.7.2测试数据和测试误差246 11.8哪一个通用逼近器在实践中工作得最好247 11.9装袋法交叉验证模型248 11.9.1装袋法回归模型248 11.9.2装袋法分类模型250 11.9.3实际中应该装袋多少个模型253 11.9.4集成：装袋法和提升法253 11.10K折交叉验证253 11.10.1K折交叉验证过程253 11.10.2K折交叉验证和高维线性建模255 11.11特征学习失败256 11.12小结257 11.13习题258 第12章核方法260 12.1引言260 12.2定形通用逼近器260 12.2.1三角函数通用逼近器260 12.2.2高输入的定形逼近器的扩展261 12.3核技巧262 12.3.1线性代数基本定理中的一个有用事实2

展开