本书对上一版内容进行了全面扩展和更新,将帮助你使用常见的Python库成功地进行数据科学操作。本书提供了对Python核心软件包的前沿见解,包括新版的Jupyter Notebook、Numpy、pandas和Scikit-learn等。
本书提供大量详细的示例和大型混合数据集,可以帮助你掌握数据收集、数据改写和分析、可视化和活动报告等基本统计技术。此外,书中还介绍了机器学习算法、分布式计算、预测模型调参和自然语言处理等高级数据科学主题,还介绍了深度学习和梯度提升方案(如XGBoost、LightGBM和CatBoost)等内容。
通过本书的学习,你将全面了解主要的机器学习算法、图分析技术以及所有可视化工具和部署工具,使你可以更轻松地向数据科学专家和商业用户展示数据处理结果。
通过阅读本书,你将学到:
在Windows、Mac和Linux系统上安装数据科学工具箱
使用Scikit-learn库提供的核心机器学习方法
通过数据操作、修复和探索来解决数据科学问题
学习先进的数据探索和操作技术
优化机器学习模型,以获得*佳性能
进行图的探索和聚集分析,充分利用数据中的联系和连接
展开