随着全球经济的深度调整,随着全球经济的深度调整,数字经济已经成为继农业经济、工业经济之后的新型经济形态。国务院发布的《促进大数据发展行动纲要》将数据定性为国家重要的基础性战略资源和核心创新要素;在党的十九大报告中,明确提出推动互联网、大数据、人工智能和实体经济的深度融合,加强信息基础设施建设;在中央政治局第二次集体学习中,习近平总书记明确提出了推动实施国家大数据战略,加快完善数字基础设施,推进数据资源整合和开放共享,保障数据安全,并要求各级政府着力开展信息基础设施建设、发展地方大数据产业。各地机构改革过程中,大数据成为一大亮点。未来,大数据相关利好政策将进一步加快落地,大数据产业发展的政策环境将进一步优化。随着大数据、云计算、物联网等新一代信息技术取得重大进展,数据规模呈现爆炸式增长。全球数据增速符合大数据摩尔定律,大约每两年翻一番。据IDC公司统计,到2025年全球数据使用量将达到163ZB,将覆盖经济社会发展各个领域。数据资源将成为国家核心竞争力,谁掌握了数据,谁就具备了优势。数据已成为数字经济时代的生产要素,而且是关键的生产要素。
近年来,我国数字经济获得了高速蓬勃发展,生态环境不断向好。统计显示,2017年,我国数字经济规模达27.2万亿元,占GDP比重达32.9%,已跃居世界第二。预计2019年我国大数据核心产业规模有望突破7200亿元,增速将维持在25-30%左右。数字经济与传统产业深度融合,成为引领我国经济发展的强劲动力。新时代下信息基础设施是围绕数据的产生、传输、存储、处理,并提供数据产品和服务的基础设施体系,是智慧社会、数字中国建设以及数字经济发展的重要基础。在数字经济大潮中,通过两年多的理论凝练和实践。2017年3月,数字经济首次写入政府工作报告。数字经济在中国已上升为国家战略,成为拉动经济增长的重要引擎和产业升级的重大突破口。习近平在2017年12月8日下午中共中央政治局第二次集体学习时强调:推动实施国家大数据战略,加快完善数字基础设施,推进数据资源整合和开放共享,保障数据安全,加快建设数字中国,更好服务地方经济社会发展和人民生活改善。树立“智慧党建”的理念,充分运用大数据思维方式和技术手段,不断提升党建工作科学化水平。
《数据湖:新时代数字经济基础设施》由“城市数据湖”理论体系的*创者、成功的实践者林拥军等创作,并经长时间的实践、研究而完成。书中阐述了城市数据湖作为新时代的数字经济基础设施,按照“湖存储、云计算”理念,提供海量数据存储、采集整理、数据开放、人工智能应用等大数据服务,实现区域数据汇聚、以及数据驱动的商业和政府决策,助力发展大数据产业,推动区域产业转型升级。同时,对数据的“五化”理论(碎片化、规模化、资产化、证券化和产业化)进行阐述和归纳。本书也为政府和企业了解数据湖生态体系建设、数据银行(数字经济新业态)的理论与实践创新、及制定数据确权和立法政策等相关的数字经济发展战略提供了建议和参考。
序 一
2019年4月,我应北京易华录林拥军总裁邀请到湖南长沙,出席中国华录集团和株洲市人民政府联合举办的互联网岳麓峰会大数据产业论坛,并发表了题为《数字经济时代的机遇与网络安全》的主旨演讲。在这次论坛上,我对易华录提出的数据湖有了一些了解。总的来看,他们提出了在数字经济时代发展大数据产业的一种新模式,在全国也落地了不少实践案例。最近,得知林拥军总裁能够组织团队,总结这些理论和实践成果并最终成书出版,实属可喜可贺。借此机会,我谈谈对大数据的看法。
什么是大数据?是不是数据量比较大,数据共享互联就叫大数据?恐怕不是的。人类文明自诞生以来就有数据这一概念了,数据有其科学的发展过程。远的不说,从计算机处理数据开始,数据的发展分三个阶段。首先是数值计算时代。数值计算时代的特征是用机器代替手工处理数据,将数据处理的过程用信息化的方式来完成。随着数据量的增多,数据除了有相关关系以外,还有语意、语法、相互逻辑,尤其是多媒体时代以后,文件系统处理数据显得不够有力,于是便诞生了关系型数据库。后来,随着数据量的爆炸,又产生了数据仓库。用数字来表达产业与产业的过程,既提高了效率,又加快了进度,可称之为数据工程时代。在这个阶段,数据还是作为处理的基础元素,还没有形成生产的要素。现在的数据是金钱,也是财富,因此,数据已经不再是工具,更不是以前用于计算的数值,数据本身也已成为生产的要素。
那么,到底什么是大数据呢?从科学的角度来定义,大数据是指无法用现有的软件工具进行处理的海量复杂的数据集合,它具有多源异构、非结构化、低价值度、快速处理等特点。也就是说,不能用现有的数据库,也不能用现有数据互联互通的协议来处理的数据才是大数据。
因此,数据大从根本上讲并不是大数据,有什么区别呢?无非就是以下几个区别:第一,以前我们对数据的互通互联是有目的、有对象的,但是大数据却非如此。各种各样的数据都要被收集起来,即便是跟你无关的数据,也可能擦出新的火花。因此,大数据是多源异构,它数量庞大。第二,政府要治理社会,不是简单地将与政府有关的数据收集起来就可以了,更重要的是要收集那些看似没有关系的数据。因此,这些数据收集下来以后是不完全的,是非结构化的。第三,有些数据本身价值密度很低,但数量巨大,那么它就不是大数据。数据再海量也不是大数据。大数据要快进快出,不要把垃圾堆积如山。
大数据是钻石矿,而是钻石矿就会有竞争,就会有捣乱,就会有破坏,会面临大数据时代新的安全风险。怎么办?我们要有科学的网络安全观。杀病毒、防火墙、补漏洞、打补丁,这些是不够的。那么离开封堵查杀,如何保障网络安全?这就要有安全可信的体系。按照《中华人民共和国网络安全法》第十六条,国务院和省、自治区、直辖市人民政府应当统筹规划,加大投入,扶持重点网络安全技术产业和项目,支持网络安全技术的研究开发和应用,推广安全可信的网络产品和服务。《国家网络空间安全战略》也提出“夯实网络安全基础”,强调尽快在核心技术上取得突破,加快安全可信的产品推广应用。
我国在可信计算领域的创新比较早,从1992年2月第一批成果通过测评和鉴定开始,有关成果被先后应用在国家电网、中央电视台等核心要害部门。目前,我们开启了可信计算3.0时代,下一步要按照国家法律法规、技术标准有关要求,用可信计算3.0夯实网络安全等级保护基础,坚决捍卫国家网络安全。这正是我们要在大数据时代应该做的。
希望通过这篇序言,让更多的人关注和正确认识大数据,关注大数据安全和大数据产业发展,共同携起手来,为国家数字经济建设和网络强国战略推进做出更大的贡献。
中国工程院院士
国家集成电路产业发展咨询委员会委员
国家信息化专家咨询委员会委员
国家三网融合专家组成员
2019年8月于北京
前言
第一章 人类社会进入大数据时代
一、从数据到大数据
二、数据的特征
三、数据的本质
四、大数据战略
第二章 数字经济产业发展
一、关于数字经济
二、数字经济产业发展现状
三、数字经济发展过程中面临的问题
第三章 数据湖的基本特征和理论
一、数据湖理论
二、数据湖的先进性
三、数据湖产业实践
四、数据产业发展的“五化”理论
第四章 数字经济时代城市基础设施
一、数据湖基础设施
二、数据湖提供的服务
三、城市数据湖产业园生态
四、基础设施建设在数字经济发展中的重要作用
第五章 数字经济新业态——数据银行
一、数据交易发展现状与未来趋势
二、数据银行概述
三、数据银行业务探讨
四、数据银行业务探索的意义与重要性
五、数据湖与数据银行的关系
第六章 数据确权、数据立法配套设施
一、国家政策、行业背景
二、我国数据立法的现状及特点
三、数据确权的必要性
四、数据确权的主要内容
五、立法的价值选择
六、立法的路径选择
后 记
温馨提示:请使用泸西县图书馆的读者帐号和密码进行登录