第1章 为什么需要集成学习 001
1.1 混合训练数据 003
1.2 混合模型 004
1.3 混合组合 008
1.4 本章小结 009
第2章 混合训练数据 011
2.1 决策树 013
2.2 数据集采样 018
2.2.1 不替换采样(WOR) 018
2.2.2 替换采样(WR) 019
2.3 Bagging(装袋算法) 021
2.3.1 k重交叉验证 024
2.3.2 分层的k重交叉验证 026
2.4 本章小结 028
第3章 混合模型 029
3.1 投票集成 030
3.2 硬投票 031
3.3 均值法/软投票 033
3.4 超参数调试集成 036
3.5 水平投票集成 038
3.6 快照集成 044
3.7 本章小结 046
第4章 混合组合 047
4.1 Boosting(提升算法) 048
4.1.1 AdaBoost(自适应提升算法) 049
4.1.2 Gradient Boosting(梯度提升算法) 051
4.1.3 XGBoost(极端梯度提升算法) 053
4.2 Stacking(堆叠算法) 055
4.3 本章小结 058
第5章 集成学习库 059
5.1 ML-集成学习 060
5.1.1 多层集成 063
5.1.2 集成模型的选择 064
5.2 通过Dask扩展XGBoost 069
5.2.1 Dask数组与数据结构 071
5.2.2 Dask-ML 076
5.2.3 扩展XGBoost 079
5.2.4 微软LightGBM 082
5.2.5 AdaNet 088
5.3 本章小结 090
第6章 实践指南 092
6.1 基于随机森林的特征选择 093
6.2 基于集成树的特征转换 096
6.3 构建随机森林分类器预处理程序 103
6.4 孤立森林进行异常点检测 110
6.5 使用Dask库进行集成学习处理 114
6.5.1 预处理 115
6.5.2 超参数搜索 117
6.6 本章小结 121
致谢 122
展开