机器学习的应用是高度自度化且自动修正的。学习到的数据越多,机器学习应用需要的人工干预越少。为了解决现实世界中复杂的数据问题,科学家们开发出专门的机器学习算法来解决这些问题。数据科学正是通过算法和统计分析来帮助读者从现有数据中获取新知识的。
本书将解决如何高效地进行数据分类及预测的问题。本书主要讲解7种数据科学算法,有k最近邻算法、朴素贝叶斯算法、决策树、随机森林,k-means聚类、回归分析和时间序列分析。 此外,你还会掌握如何对数据进行预聚类,以便针对大型数据集进行优化和分类。最后,你将了解如何根据数据集中的现有趋势来预测数据。本书的各章还有配套的练习题,以帮助你夯实内容,扩展相关知识。
读完本书后,你将了解如何选择机器学习算法进行聚类、分类或回归,并知道选择哪种算法来解决实际问题。
本书主要包括以下内容:
如何使用朴素贝叶斯、决策树和随机森林进行分类并准确地解决复杂问题;
正确识别数据科学问题并使用回归分析和时间序列分析设计合适的预测解决方案;
如何使用 k-means算法对数据进行聚类;
如何使用Python和R语言有效地实现算法。
展开