第1章 大数据概论
在过去的数年中,信息与通信技术(information and communication technology,ICT)在生产、生活、经济、社会等各个领域不断渗透和推陈出新,ICT的快速发展及创新正使各个产业发生改变,各行各业都产生了海量数据,大数据时代已经来临。在移动互联网、物联网、云计算、区块链、人工智能、5G等一系列新兴技术的支持下,社交媒体、众包、平台经济等新型应用模式正在持续拓展人类创造和利用信息的范围和形式。大数据浪潮,汹涌来袭,与互联网的发明一样,这绝不仅仅是ICT领域的革命,更是在全球范围内启动透明政府、加速企业创新、引领社会变革的利器。
1.1 什么是大数据
大数据(big data)并不是一个新概念,但大数据时代却是伴随着近年来信息爆炸式增长而来。1980年,著名未来学家阿尔文 托夫勒便在《第三次浪潮》一书中,将大数据热情地赞颂为“第三次浪潮的华彩乐章”。从2009年开始,“大数据”成为ICT行业的流行词汇。2012年以来,“大数据”一词越来越多地被人们提及,媒体将2013年称为“大数据元年”。
1.1.1 大数据时代背景
人类文明的进步总是以科技的突破性成就为标志。19世纪,蒸汽机引领世界;20世纪,石油和电力扮演主角;21世纪,伴随着信息技术和互联网的爆发式发展,数据成为当今世界的基础性战略资源,大数据成为学术界、产业界和各级政府部门关注的热点领域。
2008年9月和2011年2月,Nature与Science杂志分别出版专刊Big Data:Science in the Petabyte Era和Dealing with Data,从互联网技术、互联网经济学、超级计算、环境科学、生物医药以及气象学、生态学、神经科学、社会科学、科学数据可视化等多个方面讨论大数据处理和应用专题。
2010年2月,TheEconomist杂志发表了“TheDataDeluge”作为封面文章。文章指出,当今世界上的信息数量正快速递增,随着这股数据洪流不断增加,存储这些数据,提取并分析有用信息将变得更困难。商业、政府、科学以及人们的日常生活都已经显现数据泛滥的前兆。处理数据泛滥的*好方法就是让更多数据被用到正确的地方,但这个过程可能会十分漫长。毕竟,人类学习处理数据洪流、找到如何管理它们的过程才刚刚开始。
2011年6月,麦肯锡咨询公司发布了《大数据:下一个竞争、创新和生产力的前沿领域》研究报告。麦肯锡在研究报告中指出,数据正渗透到当今每一个行业和业务职能领域,成为重要的生产因素。各行各业海量数据的挖掘和运用预示着新一波生产率增长和消费者盈余浪潮的到来,“大数据”时代已经降临。
全球范围内,运用大数据推动经济发展、完善社会治理、提升政府服务和监管能力正成为趋势,有关发达国家相继制定实施大数据战略性文件,大力推动大数据发展和应用。2012年3月,美国政府宣布投资2亿美元发起“大数据研究和发展倡议”,致力于提高从大型复杂数据集中提取信息和知识的能力,并服务于能源、健康、金融和信息技术等领域的高科技企业。2012年4月,英国、美国、德国、芬兰和澳大利亚研究者联合推出“世界大数据周”活动,旨在促使政府制定战略性的大数据措施。联合国也在2012年5月发布了《大数据促发展:挑战与机遇》白皮书,指出大数据对于联合国和各国政府来说是一个历史性的机遇,人们如今可以使用极为丰富的数据资源来对社会经济进行前所未有的实时分析,帮助政府更好地响应社会和经济运行。
为全面推进我国大数据发展和应用,加快建设数据强国,国务院于2015年8月发布了《促进大数据发展行动纲要》。2015年10月,十八届五中全会首次提出“国家大数据战略”。2016年2月,国家发展改革委、工业和信息化部、中央网信办发函批复,同意贵州省建设国家大数据(贵州)综合试验区,这也是首*国家*大数据综合试验区。2016年10月,京津冀地区、珠江三角洲、上海市、河南省、重庆市、沈阳市、内蒙古自治区七个区域获批第二批国家*大数据综合试验区。2016年12月,工业和信息化部发布了《大数据产业发展规划(2016—2020年)》。2018年4月,国务院办公厅印发《科学数据管理办法》,提出了要进一步加强和规范科学数据管理,保障科学数据安全,提高开放共享水平,更好地为国家科技创新、经济社会发展和国家安全提供支撑。2020年5月,工业和信息化部发布了《关于工业大数据发展的指导意见》,提出了促进工业数据汇聚共享、融合创新,提升数据治理能力,加强数据安全管理,着力打造资源富集、应用繁荣、产业进步、治理有序的工业大数据生态体系。2020年11月,《中共中央关于制定国民经济和社会发展第十四个五年规划和二〇三五年远景目标的建议》提出,加快数字化发展,发展数字经济,推进数字产业化和产业数字化,推动数字经济和实体经济深度融合,打造具有国际竞争力的数字产业集群。
越来越多的政府、企业等机构开始意识到数据正在成为组织中*重要的资产,数据分析能力正在成为组织的核心竞争力。“大数据”时代对政府管理转型来说是一个历史性机遇,对于企业来说,海量数据的运用将成为未来竞争和增长的基础。大数据的兴起意味着大机遇,但同时也带来了理论与实践范式、支撑技术、价值开发、产业与生态系统治理等多方面的重大挑战,需要在基础理论、工程技术和人才培养等各个层面上加以应对。
1.1.2 大数据的定义
大数据是一个较为抽象的概念,至今尚无确切、统一的定义。下面列出几种比较常见的定义。
维基百科中关于大数据的定义为:大数据是指无法在一定时间内用常规软件工具对其内容进行获取、管理和处理的数据集合。
国际著名IT咨询机构加特纳集团(Gartner Group)给出的大数据定义是:大数据是需要利用新处理模式进行处理,才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。
麦肯锡全球研究院给出的大数据定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。
日本野村综合研究所认为“所谓大数据,是一个综合型概念,它包括因具备3V特征而难以进行管理的数据,对这些数据进行存储、处理、分析的技术,以及能够通过分析这些数据获得实用意义和观点的人才和组织”[1]。这实际是在广义层面上给出了大数据的一个定义,如图1.1所示。
图1.1广义的大数据
基于不同的视角,学术界对大数据给出了不同的定义。与大数据密切相关的学科领域包括计算机科学与技术、统计学、机器学习、社会科学等,这些不同领域和学科的专家学者对大数据的理解和定义也有所不同,如图1.2所示。
图1.2不同学科对术语“大数据”的理解不同
计算机科学与技术领域的专家学者认为:当数据量、数据的复杂程度、数据处理的任务要求等超出了传统数据存储与计算能力时,称之为“大数据”。可见,计算机科学与技术中是从存储和计算能力视角理解“大数据”——大数据不仅仅是“数据存量”的问题,还涉及“数据增量”、复杂度和处理要求(如实时分析)。
统计学领域的专家学者认为:当能够收集足够多的个体(总体中的绝大部分)的数据,且计算能力足够大,可以不用抽样,直接在总体上就可以进行统计分析时,称之为“大数据”。可见,统计学主要从所处理的问题和“总体”的规模之间的相对关系视角理解“大数据”。
机器学习领域的专家学者认为:当训练集足够大,且计算能力足够强,只需通过对已有的实例进行简单查询或机器学习方式即可达到“智能计算的效果”时,称之为“大数据”。可见,机器学习主要从“智能的实现方式”理解大数据——智能的实现通过简单的实例学习和机器学习的方式即可实现。
社会科学领域的专家学者认为:当多数人的大部分社会行为可以被记录下来时,称之为“大数据”。可见,社会科学家眼里的“大数据”主要从“数据规模与价值密度”视角来看——数据规模过大导致价值密度过低。
大数据的产生和发展正在对实际的管理活动产生深刻的影响。在广度上,诸多领域的大数据对不同产业的发展以及人们的生产生活方式都产生了深刻影响;而在深度上,大数据正在影响人们生产和消费信息的方式,从而对管理机制和决策模式产生显著影响;在细微之处,大数据存在于生活的方方面面,并潜移默化影响着人们的行为方式。
基于大数据的资源观和管理视角,杨善林和周开乐认为大数据是一类能支持管理决策的重要资源,提出了基于管理视角的大数据定义:“大数据是一类能够反映物质世界和精神世界运动状态和状态变化的信息资源,它具有复杂性、决策有用性、高速增长性、价值稀疏性和可重复开采性,一般具有多种潜在价值”。
陈国青等则从信息管理与信息系统领域中“造”与“用”的视角来讨论大数据,如图1.3所示。大数据以信息技术的形式呈现,通常可以概括为数据和系统(包括算法、应用、平台等)。从“造”(设计科学)的视角出发,涉及的主要问题包括大数据分析(如画像、学习、推断等)和大数据系统建设(如体系、功能、集成等)。从“用”(行为科学)的视角出发,涉及的主要问题包括大数据使用行为(如采纳、影响、管理等)和大数据使能创新(如要素、价值、市场等)。
图1.3大数据的“造”与“用”视角
目前人们认识大数据的视角是存在差异的,造成这种差异的原因主要是人们分析大数据的背景和应用大数据的目的不同。除了上述具有代表性的定义外,还有许多关于大数据的不同定义,然而人们对大数据的认识就像是盲人摸象,每个定义都是基于特定的视角,如大数据的技术特征、应用价值、来源和处理方法等。
1.1.3 大数据的特征
大数据既是数据量的一个激增,同时也是数据复杂性的提升。大数据同过去的海量数据有所区别,其基本特征可以用4个V开头的英文关键词来描述,即体量(volume)大、类型(variety)多、速度(velocity)快、价值(value)密度低。
大数据的第一个特征是数据体量巨大。计算机中的数据都是用二进制数表示的,所以信息的*小单位就是一个二进制位(bit),但是计算机处理信息时一般是以字节(B)为单位,一个字节是8位的二进制数(1B=8bit),存储器中的一个单元存放一个字节。大数据的数据量是非常庞大的,数据存储量的计量单位从TB量级跃升到PB量级。当前,典型个人计算机硬盘的容量为TB量级,而一些大企业的数据量已经接近EB量级。表1.1列出了计算机中的数据存储单位及换算关系。
表1.1计算机中的数据存储单位及换算关系
大数据的第二个特征是数据类型繁多,包括结构化的数据表和半结构化的网页以及非结构化的文本、图像、视频、地理位置等。物联网、云计算、移动互联网、车联网、手机、平板电脑以及遍布地球各个角落的各种各样的传感器,无一不是数据来源或者承载的方式。这些多类型多来源的数据对数据处理能力提出了更高要求。
大数据的第三个特征是数据增长与处理速度快。数据源增加,数据通信的吞吐量提高,数据生成设备的计算能力提高,使得数据产生和更新的速度非常快。传统数据仓库、商务智能应用都采用的是批处理方式,但对于大数据应用,必须进行实时数据流处理。
大数据的第四个特征是价值密度低。产业界对大数据特征的定义普遍采用上述3V特征来描述,不过也有人认为除了3V特征,还应该增加1个V,即价值(value),它是大数据处理与分析的*终意义,即获得洞察力和价值。这也是大数据的核心特征。但是现实世界所产生的大数据中,有价值的数据所占比例很小,即价值密度低。相比于传统的小数据,大数据*大的价值在于通过从大量不相关的各种类型的数据中,挖掘出对未来趋势与模式预测分析有价值的数据,并通过机器学习方法、人工智能方法或数据挖掘方法深度分析,
展开