数据团队所面对的工作对象特殊,与客户沟通交流的方式以及工作产出都很特别,所以需要专门的工作流程、专业的协作工具,当然,更要有专门的考核标准。
本书从概念定义出发,将数据科学领域所涉及的人才、项目流程、工具、产出,以及注意事项娓娓道来,并辅以实践案例进行说明,力图帮助那些正在从事数据科学工作或即将接触数据科学工作的企业决策者梳理思路、整合资源、通向成功的彼岸。
现在越来越多的企业开始利用数据科学来驱动业务,本书将依托TalkingData 在大数据领域的多年实践经验,从数据、人才、工具三个维度帮助企业数据团队完成端到端的数据科学项目部署。本书的内容包括数据科学项目的基础概念、准备工作、团队人才及端到端的实战案例等,适合正面临数字化转型的企业决策者、数据团队负责人,以及从事数据科学工作的数据分析师、数据科学家、数据工程师等阅读。
第1篇 数据科学项目之战壕篇 1
第1章 数据科学项目的概念 2
1.1 数据科学概述 2
1.2 数据科学项目概述 9
1.3 数据科学项目的生命周期 11
第2 章 数据科学项目的前提:大数据安全与个人隐私保护 24
2.1 大数据安全面临的挑战 25
2.2 数据安全法律法规 26
2.3 搭建大数据安全体系 28
第3 章 数据治理 46
3.1 为什么需要进行数据治理 46
3.2 数据治理中的常见模块 49
3.3 数据治理的下游使用 52
第2 篇 数据科学项目之器械库 67
第4 章 数据科学项目团队 68
4.1 专业数据人才 68
4.2 其他团队人才 78
4.3 团队合作 79
第5 章 数据科学项目中的数据 83
5.1 数据的分类 83
5.2 数据在各个行业中的应用 89
第6 章 数据科学项目的工具:数据科学平台 103
6.1 数据科学平台概述 103
6.2 为什么需要数据科学平台 105
6.3 数据科学平台中的基础概念 106
6.4 数据科学平台的核心特性 112
6.5 数据科学平台的分类 119
6.6 数据科学平台使用指南 124
第3 篇 数据科学项目之实战篇 131
第7 章 数据科学项目管理流程 132
7.1 诊断:数据科学项目的起步 135
7.2 组织:数据科学项目的保障 138
7.3 行动:数据科学项目的核心 142
7.4 评估:数据科学项目的升华 148
第8 章 数据科学项目实战案例 149
8.1 数据科学助力企业线上数字化转型案例 149
8.2 AI 智能模型平台助力产销预测案例 175
温馨提示:请使用泸西县图书馆的读者帐号和密码进行登录
推荐序1
入行十几年了,我一直在推广数据思维。关于数据思维,我铭记于心的是师父的话——用好大数据的前提是先假设任何数据都可以被获取,不要被数据的多少限制想法。真正的大数据是你还未想通如何用它的数据。
大数据时代确实需要一种全新的思维方式,这远比任何数据资源及算法重要。我认为在所谓的人和机器人的“战争”中,赢家应该是受数据驱动的、有数据信仰的人,科技发展的目的是让我们的生活更加幸福美好。
当大家为人工智能与大数据技术兴奋不已之时,是否想过为什么真正从中得利的企业屈指可数?其实大多数公司的大数据水平仍然处于发展初期,而像Google、阿里巴巴这些已经收获大数据回报的公司,一般在十几年前就走上了变革之路。
至今为止,我们依然不能准确形容大数据的全貌,大数据似乎还是一个“正在进行时”词汇,但我坚定不移地认为,未来世界一定是一个高速运转的世界,其命脉肯定依赖于海量数据驱动的实时决策与互动,大数据将从根本上改变人类的生活模式及企业的运营方式,甚至能催生出全新的产业乃至社会形态。
然而,利用海量数据和人工智能算法来帮助企业自动优化并实时执行运营任务的前提是,数据要高度流通且能即时响应。自主化企业要先获得海量数据(内部数据、外部数据、结构化数据、非结构化数据),并具有能够将这些资源转化为智能决策的能力。有了这种数据科学范式,企业就能抢在事情发生之前做出决策。平心而论,这是一个颇有难度的系统工程,要想实现这一系统工程,需要参考详细全面的资料,而本书恰恰提供了构建数据科学系统工程的实战指南。
对问题进行定义并确定目标如何被量化。
获取训练数据并对其进行测试、探索,识别数据模式。
为数据分析做准备,包括清洗数据、增强数据等。
围绕着定义好的量化目标进行数据分析及建模。
呈现问题解决步骤,找到问题解决方案。
根据量化结果优化以上过程。
虽说想法永远比方法重要,但书中的实战案例可以帮助读者形成更全面的数据认知。根据我个人的经验,凡是把数据科学嵌入公司“中枢神经系统”的企业,都将获得全新视角,提前步入敏捷行动、预测闭环、自动化决策的管理时代。但要牢记的是,数据科学平台仅仅是一种工具,要想成为行业的领先者,探索如何释放人类的潜能才是上策。
车品觉
推荐序2
如今的时代是一个数据时代,是一个数据产生价值的时代,是一个数据在具体的业务场景中被产品化的时代。这个时代的企业都面临着一个无法回避的问题——数据化转型,企业应该怎么办?
对互联网企业而言,这似乎不是问题。原因可能是,互联网企业从“出生”那天起,就相对比较注重数据分析与数据挖掘。但是,还有海量的传统企业,比如零售企业、机械制造企业、培训企业等,它们应该怎么办?一面是蒸蒸日上的业务,另一面是汹涌的数据化浪潮,该如何让数据和业务完美融合并进一步使数据成为企业的核心竞争力呢?面对数据化转型的紧迫挑战,很多企业高管急需一套完整的、经过实践检验的方法论来指导企业前行。这套方法论不仅要包括前沿的数据分析方法,还要契合行业实践。行业实践不仅涉及数据、算法、产品,还包括隐私保护、数据治理、组织架构等管理经营层面的先进理念。那么应该去哪里寻找这样的方法论呢?
很幸运,TDU(TalkingData University)团队的新书《数据科学实战指南》很好地解决了这个问题。这是一本非常独特的书,它关乎数据科学,关乎产业实践,关乎组织治理,尤其适合正面临数据化转型的企业的从业者阅读。
从这本书中,你可以了解基本的数据科学方法论、数据科学工具、数据科学团队组织架构、数据治理理念,以及重要的真实的成功案例。相信这本书一定会对你有所启发。
王汉生