泸西县图书馆“U书快借”平台

内容介绍

《元学习在自动机器学习和数据挖掘中的应用(原书第二版)》全面而透彻地介绍了元学习和AutoML的几乎所有方面，涵盖了基本概念和架构、评估、数据集、超参数优化、集成和工作流，以及如何使用这些知识来选择、组合、调整和配置算法和模型，以更快更好地解决数据挖掘和数据科学问题。因此，它可以帮助开发人员开发可以通过经验改进自己的系统。

展开

精彩书摘

**部分基本概念与架构
　　第1章简介
　　摘要本章以介绍本书的结构开篇，分为三部分。**部分解释了一些基本概念，如什么是元学习，元学习与自动化机器学习(AutoML)之间的关系等。接下来几章分别详细介绍了元学习与AutoML系统的基本架构、利用先验元数据进行算法选择的系统、系统评估时使用的方法，以及不同类型的元级模型。该部分还介绍了超参数优化和工作流设计所使用的方法。第二部分论述了更为先进的技术和方法。其中第8章说明了建立构形空间和开展实验的相关问题。随后的几章讨论了不同类型的集成、集成方法中的元学习、用于数据流的算法及跨任务的元模型转移。其中一章专门介绍了深度神经网络的元学习。昀后两章讨论了各种数据科学任务自动化及尝试设计更复杂的系统的相关问题。第三部分内容相对较短。该部分讨论了元数据(包括实验结果)的存储库，并通过举例说明从这些元数据中可以学到什么知识。昀后一章是结束语。
　　1.1 本书的结构
　　本书由三部分组成。
　　**部分(第2～7章)概述了元学习系统的基本概念和架构，重点介绍了通过观察不同模型在先验任务中的表现，可以收集到哪些类型的“元知识”，以及如何在元学习方法中使用这些元知识来更有效地学习新任务。由于这种元学习与AutoML密切相关，因此本书也颇为详细地介绍了AutoML，重点介绍了如何通过元学习来改进AutoML。
　　第二部分(第8～15章)介绍了这些概念在更具体任务中的延伸。*先，我们讨论了一些可用于设计构形空间的方法，构形空间的设计会影响元学习和AutoML系统的搜索。然后，我们展示了如何利用元学习来构建更好的集成，并为流数据**算法。接下来，我们探讨了如何利用神经网络中的迁移学习和小样本学习，将信息从之前学习的模型迁移到新的任务中。昀后两章专门说明了数据科学自动化和复杂系统设计自动化的相关问题。
　　第三部分(第16～18章)提供了关于如何在存储库中整理元数据及如何在机器学习研究中利用元数据的实用建议。昀后一章结束语，并提出了未来的挑战。
　　1.2 基本概念与架构(**部分)
　　1.2.1 基本概念
　　1. 机器学习的作用
　　当今，数据无处不在。我们每天都会遇到各种形式的数据，例如，公司试图通过广告牌和在线广告的形式来推销他们的产品，大型传感器网络和望远镜监测着我们周围甚至宇宙中发生的复杂变化，制药机构记录着各类分子之间的相互作用，以寻找治疗新疾病的新药。
　　所有这些数据都是价值的，我们可以利用数据来表示不同的情况，学会将它们分成不同的小组，并将其纳入一个能够帮助我们做出决定的系统中。这样，我们就能从金融数据中识别欺诈性交易、根据临床数据研发新药或推测宇宙中天体的演变。这个过程就涉及学习。
　　科学界已经阐述了许多分析和处理数据的技术。其中一项典型的科学任务是建模，其目的是以简化的方式描述给定的复杂现象，以便从中进行学习。为此，基于各种直觉和假设，研究人员研发了许多数据建模技术。这一研究领域被称为机器学习。
　　元学习的作用
　　如前所述，我们不能设想一个算法适用于所有的数据，各专业领域都有其适用的算法。为特定的任务和数据集选择合适的算法是获得适用模型的关键。因此，选择算法本身就可以视为一个学习任务。
　　跨任务学习的过程通常被称为元学习。然而，过去数十年来，不同的机器学习研究人员使用的术语也不同，如元建模、学会学习、持续学习、集成学习和迁移学习等。这个庞大且不断增长的工作体系已经清楚地表明，元学习可以大大提高机器学习的效率、简单性和可靠性。
　　元学习领域是一个非常活跃的研究领域。许多新的和有趣的研究方向在不断涌现，以新颖的方式来实现这一总体目标。本书旨在简述迄今为止昀成熟的研究成果。随着该领域的迅速发展，数据资料需要进行整理并划分成不同紧密联系的单元。本书利用一个章节(第4章)论述了数据集的特征，但数据集在许多其他章节中也占据着重要地位。
　　元学习的定义
　　我们先来看看本书对元学习的定义。
　　元学习是一种利用元知识来调整机器学习过程以获得有效模型和解决方案的原则性方法的学习。
　　前述元知识通常包括从过去的任务中获得的任何类型的信息，如先验任务的描述、尝试的管道架构和神经架构或所产生的模型。在很多情况下，元知识还包括在为新任务寻找昀佳模型过程中所获得的知识，这些知识可以用来指导寻找更好的学习模型。Lemke等(2015)从系统的角度对这一点进行了说明。
　　元学习系统必须包含一个用来学习经验的学习子系统，经验来源于单一数据集的先前学习片段和/或不同的领域或问题中提取的元知识。
　　目前，许多研究的目标都是如何利用过去和目标数据集中收集的元数据。
　　元学习与自动机器学习(AutoML)
　　一个重要的问题是：元学习系统与AutoML系统之间有什么区别？尽管这是一个主观性很强的问题，不同的人可能会给出不同的答案，但是在本书中，我们给出了Guyon等(2015)提出的AutoML定义。
　　AutoML指除模型选择、超参数优化及模型搜索等之外的机器学习过程自动化的所有方面。
　　许多AutoML系统使用的是从以往见过的数据集中获取的经验。因此，根据上面的定义，许多AutoML系统，就其本身而论，也属于元学习系统。本书重点关注涉元学习技术，以及经常使用元学习的AutoML系统。
　　元学习一词的来源
　　第1章论述了Rice(1976)的开创性工作。这项创举直到很久以后才在机器学习领域变得广为人知。
　　20世纪80年代，Rendell发表了多篇关于偏差管理的文章(该主题将在第8章进行讨论)。其中一篇文章(Rendell等，1987)包括以下内容：变量偏差管理系统(VBMS)可以执行元学习。与其他多数学习系统不同，VBMS可进行不同层次的学习。在概念学习过程中，系统还会获取有关归纳问题、偏差及两者之间关系的知识。因此，系统不仅可以学习概念，还可以学习问题与问题解决技术之间的关系。
　　20世纪70年代末，Brazdil在爱丁堡大学邂逅了与Kowalski(1979)的著作有关的“元解释器”一词。1988年，他组织了一场有关机器学习、元推理和逻辑学的研讨会(Brazdil等，1990)。
　　本书的简介如下。
　　一部分人认为，元知识代表的是关于其他(目标级)知识的知识。元知识的目的主要是为了控制推理。另一学派认为，“元知识”的作用有所不同，它是用于控制知识获取和知识重组(学习)的过程。StatLog项目(Michie等，1994)对元知识进行了探索。
　　1.2.2 问题类型
　　在科学文献中，通常会区分以下问题类型，其中许多类型在整本书中均有所提及。元学习系统的总体目标是从先验模型的应用中学习(它们的构造原理及性能表现)，以便更好地为目标数据集建模。如果基本级任务是分类，这意味着可以预测目标变量的取值，即本例中的类值。理想情况下，通过借力训练数据以外的信息，能够更好地(或更有效地)实现这一目标。
　　(1)算法选择(AS)。给定一组算法和一个数据集(目标数据集)，确定哪种算法昀适合对目标数据集建模。
　　(2)超参数优化(HPO)。给定一种包含特定超参数的算法和一个目标数据集，确定给定算法的昀佳超参数并设置为目标数据集建模。
　　(3)合并算法选择与超参数优化(CASH)。给定一组算法，其中每个算法都具有自身的超参数集，同时给定一个目标数据集，确定使用哪种算法及如何设置算法超参数来实现目标数据集的建模。一些CASH系统还可以处理更加复杂的应用流水技术合成任务，后面将进行讨论。
　　工作流(管道)合成即为，给定一组算法，且每个算法都有属于它自身的超参数集，并给定一个目标数据集，设计一个由一或多个算法组成的工作流(管道)为目标的数据集建模。工作流中包含的具体算法及算法超参数设置可以视为CASH问题。
　　(4)架构搜索和(或)合成。这一问题类型可视作对上述问题类型的泛化。在此设置中，无须像工作流(应用流水技术)中那样在一个序列中组织单一成分。例如，该架构可以包括部分有序或树状的结构。神经网络结构设计可视为该范畴下的一个问题。
　　(5)少样本学习。给定一个只包含很少示例的目标数据和各类非常相似但包含许多示例的数据集，检索一个在先验数据集上预训练过的模型，并对该模型进行微调，使它在目标数据集上有优异的表现。
　　注意，算法选择问题被定义在一个离散的算法集上，而超参数优化问题和CASH问题通常被定义在连续的构形空间上，或同时具有离散变量和连续变量的异构空间上。算法选择技术也可以轻松地应用于后者的离散化版本中。
　　在本书中，我们遵循以下已在机器学习领域中得到广泛应用的惯例。“超参数”属于用户自定义参数，它决定具体机器学习算法的行为。例如，决策树中的剪枝水平和神经网络中的学习速率均为超参数。(模型)“参数”是基于训练数据而习得的一种参数，如将神经网络模型的权值视作模型参数。

展开

目录
前言
本书的基本架构
致谢
**部分基本概念与架构
第1章简介3
1.1 本书的结构3
1.2 基本概念与架构(**部分)4
1.2.1 基本概念4
1.2.2 问题类型6
1.2.3 元学习与AutoML系统的基本架构7
1.2.4 使用来自先验数据集的元数据进行算法选择(第2、5章)7
1.2.5 不同系统的评价与比较(第3章)8
1.2.6 数据集特征/元特征的作用(第4章)8
1.2.7 不同类型的元级模型(第5章)9
1.2.8 超参数优化(第6章)9
1.2.9 工作流设计的自动化方法(第7章)10
1.3 先进技术和方法(第二部分)10
1.3.1 设置构形空间和实验(第8章)10
1.3.2 集成学习与数据流的自动化方法11
1.3.3 元模型的跨任务迁移(第12章)12
1.3.4 深度神经网络的元学习(第13章)13
1.3.5 数据科学自动化与复杂系统设计13
1.4 实验结果的储存库(第三部分)15
1.4.1 元数据的储存库(第16章)15
1.4.2 学习储存库中的元数据(第17章)15
1.4.3 结束语(第18章)16
参考文献16
第2章算法选择的元学习方法(一)(排序设置)18
2.1 简介18
2.2 不同形式的**19
2.2.1 算法集中的*佳算法20
2.2.2 *优算法子集20
2.2.3 线性排序21
2.2.4 准线性(弱)排序22
2.2.5 不完全排序22
2.2.6 在特定的预算范围内寻找*佳算法22
2.3 算法选择所需的排序模型23
2.3.1 以排序的形式生成元模型23
2.3.2 使用排序元模型进行预测(top-n策略)26
2.3.3 对建议排序的评价29
2.4 实施精度与运行时间的组合测度29
2.5 扩展及其他方法31
2.5.1 采用平均排序法**工作流31
2.5.2 排序可能会降低数据集专家级算法的等级31
2.5.3 基于DEA多准则分析的方法32
2.5.4 利用数据集的相似性来识别元数据的相关部分32
2.5.5 处理不完全排序32
参考文献34
第3章学习/自动机器学习(AutoML)系统评价建议36
3.1 简介36
3.2 基础算法的评估方法37
3.2.1 泛化误差37
3.2.2 评估策略37
3.2.3 损失函数和损失38
3.3 基础算法的性能归一化38
3.4 元学习与AutoML系统的评估方法40
3.4.1 留出策略下的一次通过性评估40
3.4.2 采用交叉验证的元级评估42
3.5 根据相关度评估**42
3.6 评估**的效果44
3.6.1 性能损失和损失*线44
3.6.2 用*线下面积表征损失*线45
3.6.3 将通过多程交叉验证的损失*线聚合起来46
3.6.4 在特定时间预算内进行统计测试46
3.7 一些有用的度量标准47
3.7.1 松弛精度47
3.7.2 归一化的“折算累计增益”47
参考文献48
第4章数据集特征(元特征)50
4.1 简介50
4.2 分类任务中采用的数据特征描述51
4.2.1 简单、统计型和信息理论型(SSI)元特征52
4.2.2 基于模型的元特征53
4.2.3 基于性能的元特征54
4.2.4 基于概念和复杂性的元特征55
4.3 回归任务中采用的数据特征描述57
4.3.1 简单元特征和统计元特征57
4.3.2 基于复杂性的度量58
4.3.3 基于复杂性/模型的度量58
4.3.4 光滑度度量58
4.3.5 非线性度量59
4.4 时间序列任务中使用的数据特征描述59
4.5 聚类任务中采用的数据特征描述60
4.6 从基本集中衍生出新特征61
4.7 元特征的选择64
4.7.1 静态选择元特征64
4.7.2 动态(迭代)数据特征描述65
4.8 针对算法的表征和表示问题65
4.8.1 针对算法的数据特征描述65
4.8.2 表示问题66
4.9 确立数据集之间的相似度66
4.9.1 基于元特征的相似度66
4.9.2 基于算法性能结果的相似度67
参考文献68
第5章算法选择元学习法(二)74
5.1 简介74
5.2 在元学习系统中运用回归模型75
5.2.1 实证性能模型75
5.2.2 性能归一化77
5.2.3 性能模型77
5.2.4 聚类树77
5.2.5 将性能预测转化为排序78
5.2.6 针对每个实例的性能预测78
5.2.7 性能预测的优点和缺点78
5.3 在元层次上使用分类进行适用性预测79
5.4 基于成对比较的方法80
5.4.1 利用地标的成对检测81
5.4.2 针对局部学习*线的成对方法81
5.5 算法集的成对方法84
5.6 用于实施成对测试的迭代方法87
5.7 使用ART树和森林89
5.8 主动测试90
5.8.1 兼顾准确度和运行时间的主动测试90
5.8.2 重在相似数据集的主动测试93
5.8.3 讨论94
5.9 非命题方法94
参考文献95
第6章超参数优化的元学习99
6.1 简介99
6.2 基本超参数优化法101
6.2.1 基本概念101
6.2.2 基本优化方法101
6.2.3 进化法103
6.2.4 启发式搜索法103
6.2.5 超梯度104
6.2.6 多保真技术104
6.3 贝叶斯优化106
6.3.1 基于序变模型的优化106
6.3.2 树形结构Parzen估计量(TPE)108
6.4 超参数优化的元学习109
6.4.1 热启动：在初始化过程中利用元知识109
6.4.2 元知识在贝叶斯优化中的应用111
6.4.3 自适应数据集相似度113
6.5 结束语113
参考文献114
第7章自动化工作流/应用流水线设计119
7.1 简介119
7.2 自动工作流设计中的搜索约束120
7.2.1 定义备选方案的空间(描述性偏差)121
7.2.2 采用程序偏差的不同方式123
7.2.3 上下文无关文法(CFG)123
7.3 工作流设计中采用的策略126
7.3.1 运算符126
7.3.2 人工选择运算符126
7.3.3 手动修改现有工作流126
7.3.4 规划在工作流设计中的应用127
7.4 利用成功计划(工作流)的排序131
参考文献132
第二部分先进技术和方法
第8章设置构形空间与实验139
8.1 简介139
8.2 配置空间的类型140
8.2.1 与算法选择相关联的配置空间140
8.2.2 与超参数优化及超参数优化与算法选择结合相关联的配置空间140
8.2.3 与工作流设计相关联的配置空间142
8.3 特定任务配置空间的充分性142
8.4 超参数重要度与边际贡献144
8.4.1 算法的边际贡献(工作流)144
8.4.2 确定特定数据集上的超参数重要性144
8.4.3 跨数据集确立超参数重要性145
8.5 缩减配置空间146
8.5.1 缩减算法/配置的组合146
8.5.2 面向度量组合的归约法150
8.6 符号学习中的配置空间151
8.7 需要的数据集152
8.7.1 依赖现有的数据集储存库152
8.7.2 生成人工数据集153
8.7.3 生成现有数据集的变体153
8.7.4 分割大型数据集或数据流153
8.7.5 搜寻具有判别能力的数据集154
8.8 完备元数据与不完备元数据155
8.8.1 有无可能获得完备的元数据156
8.8.2 有无必要拥有完备的元数据157
8.8.3 测试顺序重不重要157
8.9 利用多臂老虎机的策略安排实验157
8.10 探讨160
参考文献160
第9章将基学习器组合为集成学习器165
9.1 简介165
9.2 袋装法和推进法166
9.2.1 袋装法166
9.2.2 推进法167
9.3 堆叠与级联归纳169
9.3.1 堆叠169
9.3.2 级联归纳170
9.4 级联与代理172
9.4.1 级联172
9.4.2 委托174
9.5 仲裁法175
9.6 元决策树177
9.7 讨论179
参考文献179
第10章集成法中的元学习182
10.1 简介182
10.2 集成系统的基本特征183
10.3 基于选择的集成构建方法184
10.4 集成学习(每数据集)184
10.4.1 构建和剪枝阶段的元学习185
10.4.2 整合阶段的元学习187
10.5 动态选择模型(每实例)188
10.6 创建层级集成模型190
10.6.1 层级集成模型190
10.6.2 利用进化计算改进层级集成模型190
10.6.3 层级集成方法中的元学习191
10.7 结论与未来研究展望191
参考文献191
第11章数据流算法**194
11.1 简介194
11.1.1 根据数据流场景调整批处理分类器196
11.1.2 根据数据流场景调整集成模型196
11.1.3 动因197
11.2 基于元特征的方法197
11.2.1 方法198
11.2.2 训练元模型198
11.2.3 元特征199
11.2.4 超参数的考虑因素200
11.2.5 元模型200
11.2.6 数据流元学习系统的评估201
11.2.7 基准201
11.2.8 讨论202
11.3 数据流集成202
11.3.1 上一区间*佳分类器(Blast)203
11.3.2 渐消因子204
11.3.3 特征漂移的异构集成205
11.3.4 选择*佳分类器的考虑因素205
11.3.5 讨论205
11.4 递归元级模型206
11.4.1 准确度衡量的集成模型206
11.4.2 两层架构207
11.5 未来研究的挑战208
参考文献209
第12章跨任务知识迁移212
12.1 简介212
12.2 背景、术语和符号213
12.2.1 迁移学习何时可用213
12.2.2 迁移学习的类型213
12.2.3 可以迁移哪些内容214
12.3 迁移学习中的学习架构215
12.3.1 神经网络中的迁移215
12.3.2 核方法中的迁移219
12.3.3 参数化贝叶斯模型中的迁移219
12.4 理论框架220
12.4.1 学会学习场景221
12.4.2 元学习器泛化误差的界限221

展开