第1章导论
1.1大数据
1.1.1大数据产生背景
随着互联网的广泛普及,云计算、物联网、人工智能等新兴技术发展迅猛,随之而来的是源源不断产生的具有多种类型的数据。截至2020年3月,我国网民规模达9.04亿人,互联网普及率达64.5%[1],传感器市场规模达1678亿元。在新一代信息技术的支持下,庞大的用户量、传感器、移动终端等产生了海量数据,覆盖各行各业、体量庞大的数据中蕴含着巨大的价值,它是现代社会的一种重要的资源。国家大数据战略提出将大数据作为基础性战略资源,实施促进大数据发展,以推动数据资源共享开放和开发应用。在《促进大数据发展行动纲要》等政策文件的指引下,我国已形成了以贵州、京津冀等8个国家大数据综合试验区为引领,东部、中部、西部、东北4个聚集区域协同发展的格局,探索公共数据开放共享、大数据创新应用、数据中心整合利用等,促进我国大数据产业发展。同时,大数据是省级机构改革的一大亮点,多省设立了省级大数据管理机构,以促进数据汇集,打破信息孤岛,实现数据价值*大化[2]。
大数据蕴含巨大的商业价值,如何有效地组织和利用大数据,已引起产业界和学术界的高度重视。众多互联网企业都纷纷投入数据资源竞争中,以滴滴快的、百度糯米、美团大众点评等为代表的企业也通过合并、补贴让利等方式扩大用户,试图占有更多的用户数据资源。目前,数据已经不仅仅被看作一种资源,它还将成为一代“基础设施和土壤”。对数据的利用,已经从单领域数据利用发展为对多领域数据的整合利用。但目前互联网企业对数据的整合还处在底层建设阶段,即将不同社会领域、不同企业和不同部门掌握的数据打碎重新聚合。今后的主要任务是将这些聚合数据再进一步整合,从而为更高层次、更大层面的管理提供数据服务。面对这样一种新形势,企业应该采取什么样的商业模式迎接新的竞争,这不仅是企业界应当思考的问题,也是学术界亟待解决的理论问题。
1.1.2大数据发展驱动要素
(1)企业—内源力。新一代大数据基础设施具有数据量大、数据来源范围广、数据结构多样化等特点。任何一家企业都无法掌握全部的数据。因此,大量地域分散的企业在各种契约和协议约束下,在数据交易和大数据产业运作中,为弥补数据资源缺口、实现优势互补而相互合作。在合作中成员企业相互依存且相互独立,以数据资源共享为纽带,共同围绕用户个性化、多样化、动态化的需求,通过多种形式实现资源优势互补,为用户提供富有创造性、将产品与服务整合在一起的服务解决方案。
(2)用户需求—拉动力。大数据市场用户需求处于爆发期,消费市场已经进入极度精细化和全面化阶段,加之互联网经济也日渐繁荣,仍有巨大的利润增长空间,目前国内市场前景十分可期。根据市场中用户的个性化需求灵活整合数据,同时可以增加信用,减少风险,降低成本,进而增强竞争力,实现高效地为社会提供各种不同类别和不同层次的数据服务。
(3)政府—激励力。“十三五”期间,我国经济社会发展对数字化赋能建设提出了更高的要求,政府对大数据服务行业的支持力度空前。我国政府积极实施“国家大数据战略”,致力于“推动互联网、大数据、人工智能和实体经济深度融合”[3],高度重视大数据的共享和应用。目前,基于大数据共享的数据服务活动日趋活跃,呈现出欣欣向荣的景象。
(4)技术—支撑力。以开源为主导、多种技术和架构并存的大数据处理技术架构体系已经初步形成,大数据技术创新取得了明显突破。先进的大数据处理技术为企业开展多种形式的数据利用提供了重要的支撑,使数据资源跨企业流动成为可能。
(5)数据资源势差—循环动力。企业为了弥补数据资源缺口,通过数据服务平台、技术标准、数据接口、数据共享协议、监管机制等不断地交互共享,共同开展数据服务活动。因此,数据资源势差使得企业之间数据共享获得循环的动力支持。
因此,企业的 “数据资源缺口”是数据资源共享的内源力,这是大数据发展的重要前提条件;用户需求是关键的拉动力,促进企业间数据合作行为的发生,同时也决定了数据价值释放的深度;政府的激励和引导是重要的激励力,为大数据发展指明了方向;数据处理技术提供了支撑力,技术水平的提高为合作企业间数据业务往来的实现提供了重要支撑;数据资源势差成为企业不断进行数据资源共享的循环动力。如图1-1所示,这些作用力彼此之间相互作用、相互联系、相互影响,为大数据发展提供了重要的助推作用。
图1-1大数据发展驱动要素
1.1.3大数据定义及特征
大数据的出现不仅改变了企业管理决策的过程和方式,更极大地影响了信息产业的发展及其商业模式的改变,引起了国内外学者的广泛关注。国内外研究主要表现在以下几个方面。
1.大数据定义
伴随着新兴信息技术的发展,数据正以前所未有的发展速度不断累积,大数据时代已经到来[4]。在20世纪80年代,美国科学家托夫勒(Toffler)在著作The Third Wave中曾提到大数据这个名词,并对其加以赞赏[5]。目前,学术界还没有对大数据相关概念达成共识,不同专家、组织机构从不同视角给出了不同的定义。美国国家科学基金会(National Science Foundation,NSF)将大数据定义为多种数据源生成的大规模、多元化、复杂、长期的分布式数据集[6]。维基百科则将大数据定义为难以用常规的数据处理方法和工具对其进行抓取、管理的、复杂的数据集合[7]。麦肯锡公司从生产要素角度对大数据进行概念界定,强调其扮演着重要的经济角色,将对全球经济社会发展产生重要影响[8]。Florid将大数据表述为由工具、传感器、网络互动、电子邮件、视频、点击数据流等相关数字来源构成的数据集合[9]。俞立平指出大数据是工业传感器、互联网、移动数码等固定和移动设备产生的结构化数据、半结构化数据与非结构化数据的总和[10]。杨善林和周开乐基于大数据资源观和管理视角,认为大数据是一类能支持管理决策的重要资源[11]。Lwin和Bogdanov基于技术升级的视角,认为大数据作为一种新兴的互联网技术,有助于传统产业的转型升级[12]。尽管国内外专家学者对大数据定义的表述各具特色,但可以得到的普遍性结论是,大数据在数据维度、数据规模和产生速度等方面均超出了传统数据库管理工具和软硬件技术的处理能力,并带来了巨大的市场空间和前所未有的产业创新机遇。
2.大数据特征
NetApp公司认为大数据应包括A、B、C三大特征要素,分别为分析(analytic)、高带宽(big bandwidth,BB)和大内容(big content,BC),其中分析是指通过对大数据进行实时分析,帮助人们获得新见解;高带宽是指快速有效地消化和处理大数据;大内容是指大数据的结构化、半结构化与非结构化特征,以及对数据存储扩展的高要求[13]。IBM公司在大数据的3V特征,即体量(volume)、速度(velocity)和多样性(variety)基础上,又补充了精度(veracity),形成4V 描述。后来,又出现了价值(value)、多变性(variability)、黏度(viscosity)、邻近性(vicinity)、模糊性(vague)等,形成了“3+xV”的描述[14]。Wu等提出了大数据的HACE特性,认为大数据是异构的(heterogeneous)、自治的(autonomous)、复杂的(complex)和不断演化的(evolving),并从数据挖掘视角提出了三层大数据处理模型[15]。杨善林和周开乐认为大数据资源是一种重要的战略性信息资源,与煤、石油、天然气等自然资源有一定的相似性,并从大数据的复杂性、决策有用性、高速增长性、价值稀疏性、可重复开采性、功能多样性方面研究分析了大数据资源的管理特征[11]。Moorthy等提出大数据的特征在4V的基础上还应具备:效(validity)、值(value)、变(variability)、源(venue)、词(vocabulary)、惑(vagueness)等特征[16]。李涛和高良谋认为大数据的特征在3V的基础上还应该具有4C的特征,即广泛覆盖性(cover)、复杂联系性(contact)、丰富来源性(cause)、多元传递性(convey)[17]。
1.2大数据产业及发展
1.2.1大数据产业链
大数据产业是指以数据生产、采集、存储、加工、分析、服务为主的相关经济活动,包括数据资源建设、大数据软硬件产品的开发、销售和租赁活动,以及相关的信息技术服务。随着大数据产业的不断发展,数据服务、基础支撑和融合应用相互影响,逐渐形成了完整的大数据产业链[18],如图1-2所示。
图1-2大数据产业链示意图
(1)数据基础层是整个大数据产业的关键支撑层,它包括网络、存储和计算机等硬件设施,大数据管理平台,以及各种与数据采集、处理、分析和展示相关的方法和工具。目前,国内骨干软硬件企业陆续推出自主研发的大数据基础平台产品,一批信息服务企业面向特定领域研发数据分析工具,部分企业积极布局深度学习等人工智能前沿技术,在语音识别、图像理解、文本挖掘等方面抢占技术制高点。在开源技术方面,我国对国际大数据开源软件社区的贡献不断增大[19]。
(2)数据服务层是整个大数据产业的中间层,为不同的用户提供多种形式的访问接入,包括移动终端和各种专用终端等,提供数据交易服务、数据采集服务、数据分析服务、数据挖掘和数据决策支持服务。这一层次,通过识别和描述用户服务需求,使候选服务目录和数据资源建立有效关联,实现服务功能的封装和调用。此外,为数据服务的综合管理提供各种核心功能,包括服务计费管理、服务质量管理、数据服务管理及服务接口管理等。
(3)融合应用层是大数据产业发展的重点,不仅包含通用型的数据产品,同时面向众多细分行业提供具体场景下的解决方案。以用户需求为导向,通过建立大数据联盟的模型库、方法库和知识库,深入探究数据资源背后潜藏的规律,从而为用户提供可动态调整的决策支持服务。
1.2.2大数据产业发展历程和现状
1.大数据产业发展历程
伴随着云计算、移动互联网、物联网、智能终端等新兴技术的不断涌现,数据正以指数级的速度不断累积,呈现爆炸式增长态势,大数据时代波澜壮阔的画卷正在逐步展开。世界已进入“数据为王”的时代。我国大数据产业发展可以划分为3个阶段[18]。
(1)2010~2014年是大数据概念“头脑风暴”与示范应用阶段。随着物联网、智能通信、移动云计算等技术的迅猛发展,人类社会中的数据种类和规模得到了前所未有的增长,标志着大数据时代正式到来。众多的大数据企业家进行技术研发、商业模式探索,在医疗、电商领域进行示范性应用,跟上了国际产业发展的潮流。
(2)2015~2018年是大数据产业创新应用和产业布局规划阶段。众多互联网企业纷纷投入数据资源竞争中,百度(Baidu)、阿里巴巴(Alibaba)、腾讯(Tencent)等互联网企业通过收购、投资、战略合作、赋能支持等多种方式进入线上到线下(online to offline,O2O)、互联网金融等新型商业模式,与掌握各领域数据的企业开展合作,其行为不以赚取利润为目的,而是以掌握更多数据资源为目的,努力抢占大数据资源。2015年,国家发布《促进大数据发展行动纲要》,2016年工业和信息化部正式印发了《大数据产业发展规划(2016~2020年)》,进一步明确了我国大数据的主要任务、重大工程。与此同时,大数据综合试验区建设是此阶段国家统筹推进大数据产业发展的重要举措。大数据产业与实体经济等深度融合,形成了数字经济发展的浓厚氛围。
(3)2019~2022年是大数据产业价值凸显和智能化发展阶段。随着大数据与人类社会的交汇融合,大数据产业将进入快速发展的阶段。2018年大数据产业发展规模达5400多亿元,连续三年的复合增长率超过了35%,2020
展开