自动机器学习(AutoML)将特征预处理、模型选择和超参数优化等常用步骤自动化,以简化机器学习的建模流程。接下来的章节会详细介绍这些步骤,并且会教读者动手构建一套AutoML系统,从而对AutoML工具和库有更深刻的理解。
在开始之前,有必要回顾一下什么是机器学习模型,以及如何训练模型。
机器学习算法对数据进行处理,识别特定的模式,这一学习过程称为模型训练(model training)。模型训练的结果是机器学习模型。有了机器学习模型,你不用制定明确的规则,它就可针对数据提出见解或解答。
在实际应用机器学习模型时,需要输入大量数据,用于算法训练。训练后的成果是可用于预测的机器学习模型。这种预测可根据服务器当前状态来确定它未来四个小时是否需要维护,或者判断客户会不会投向竞争对手。
有时待解决的问题本身都没有明确定义,甚至我们都不知道需要什么样的答案。在这种情况下,机器学习模型可帮助探索数据集,比如识别行为相似的客户群,或者根据不同股票之间的关联关系发现股票的层级结构。
模型划分出客户群后,有什么用?至少可以知道:同一群体的客户有哪些相似的特征,比如年龄、职业、婚姻状况、性别、喜好、日常消费习惯、总消费额等。不同群体的客户是彼此不同的。有了这些信息,我们就可以针对每个群体推送不同的广告。
可以使用简单的数学术语说明这一流程。设有数据集 ,包含 个样本。样本可代表客户或不同的动物。通常,每个样本都是一个实数集,称为特征(feature),比如,一位35岁的女性客户在商店消费了12000美元,可以用向量(0.0,35.0,12000.0)表示。注意,这里性别是用 表示的,男性客户可以用 表示。向量的大小称为维度,通常用 表示。这是一个大小为3的向量,即三维数据集。
温馨提示:请使用泸西县图书馆的读者帐号和密码进行登录
自动机器学习入门好书,示例清晰,讲解透彻,推荐!
——亚*逊读者 UVphoton
这本书让我这个门外汉掌握了自动机器学习的基本原理,很适合程序员读。
——亚*逊读者 Greg Hecht
网上有不少免费的机器学习教程,但都缺少条理,后悔没有早点买这本书。
——亚*逊读者 Jon Froiland
我喜欢这样的书,既有大局观,又把技术细节交待清楚了。
——亚*逊读者 Jano