第1章地球大数据科学
1.1地球大数据问世
1.1.1大数据改变科学研究范式
20世纪90年代中后期,大数据初露锋芒,受到人们关注,不过那时大数据定义主要侧重于数据量庞大这一特性,即“超出存储和计算能力上限的数据量”(Guo et al.,2017)。随着计算机领域在海量数据传输、存储以及处理能力方面的大幅跃升,大数据研究开始蓬勃发展,互联网数据中心在大数据处理技术上的突破被视作*为成功的范例之一。此后,大数据的定义转而强调数据的种类以及增长的速度,并朝着数据类型多元化(variety)、数据规模宏大(volume)以及处理速度快(velocity)这三个方向(合称3Vs)迈进。随着从数据中挖掘信息的能力持续增强,在3Vs的基础上,又提出了大数据的新特质一数据价值密度偏低。随着各个领域研究的不断深入,准确性、可视性以及合法性等大数据的特征也陆续被发掘出来。
大数据时代的降临,是科技与社会众多学科迅猛发展的结果,其中蕴含着自然科学、社会科学、人文科学以及工程学发展的深刻变革(李学龙,2015)。大数据计算确立了数据密集型的科学研究方法,推动了从模型驱动向数据驱动的转变。大数据技术极大地推动了科学研究的进步。其一,大数据推动了学科的融合,使不同学科之间的研究对象以及数据获取、分析和挖掘的方式得以统一。其二,大数据提升了科学研究的可信度与普适性。将大量数据作为研究对象能够获得客观、真实的结果,避免主观因素对研究的干扰。与模型驱动不同,数据驱动在很大程度上规避了模型适用范围、精度以及离群值等方面的干扰。其三,大数据统一了“本地知识”与“云端知识”,通过云端检索和数据挖掘,极大地提高了知识获取的效率(郭华东等,2016)。
1.1.2科学大数据的提出
随着大数据研究的持续推进,2013年9月,相关论文在《科学通报》上以“科学大数据与数字地球”为题正式发表,科学大数据的概念被正式提出(郭华东,2013)。作为科学研究与工程实践的结合体,大数据兼具复杂性、综合性、全球性以及信息与通信技术高度集成性等众多特点。其研究范畴从单一学科向多学科、跨学科转变;研究内容从自然科学向自然科学与社会科学的深度融合过渡;研究群体从个人或小型科研团队向国际科技组织转变。作为一种较少依赖因果关系,主要依靠相关性来发现新知识的新型研究模式,科学大数据已然成为继经验、理论和计算模式之后,数据密集型科学范式的典型代表。2015年,国务院发布《促进大数据发展行动纲要》[国发(2015)50号],科学大数据被明确列入其中,文件提出要发展科学大数据,构建科学大数据国家重大基础设施,以支持解决经济社会发展和国家安全重大问题。
科学大数据有着自身*特的属性与特征。从数据内容方面看,科学大数据通常表征自然客观对象及其变化过程;从数据体量和增长速率角度而言,不同学科之间存在较大差异;从数据获取方式来看,一般源于观测和实验的记录以及后续的加工处理;从数据分析方法上分析,其知识发现通常需要借助科学原理模型,单纯依靠数据分析而抛开科学原理模型的领域与方法较为少见。科学大数据主要源自对自然与物理过程的客观观测,过程中会引入系统观测误差及记录误差,并且包含多时空、多种类、多结构的数据,内容和形式极为复杂,所以不可重复、高度不确定、高维度以及高度计算复杂性成为科学大数据的主要特征。由此可以说,科学大数据具有与一般大数据显著不同的特点(郭华东,2014)。
1.1.3地球大数据概念
2014年,在地球科学与大数据蓬勃发展的大背景下,地球大数据这一概念得以正式提出。地球大数据乃是针对地球科学领域、具备空间属性的科学大数据的集合体,也是新一代数字地球的呈现形式(Guo,2014)。地球大数据主要源自大型科学实验装置、探测设备、传感器、社会经济观测以及计算机模拟等过程,它既具有海量、多源、异构、多时相、多尺度、非平稳等大数据的普遍特性,又具有显著的时空关联与物理关联性,并且其数据生成方法和来源具有可控性(Guo,2022)。
地球大数据在给人类带来巨大挑战的同时,也带来了绝佳机遇:其一,现有的数据处理方式难以充分发挥地球大数据的优势,故而需要研发出相应的整合机制与方法,探索由大数据驱动的科学发现新范式;其二,地球大数据将为地球科学乃至其他领域的可持续发展带来重大变革(郭华东,2024)。
1.2地球大数据科学的内涵
科学是“通过观察和实验对物理和自然世界的结构和行为进行系统研究的智力和实践活动”。技术被认为是科学知识在系统和子系统中的应用,但是技术的进步也促进了新科学的出现。例如,伽利略望远镜帮助创建了现代天文学,而显微镜帮助生物学家引入了微生物学,并使微生物学科的研究成为可能。其他一些技术的发展也是如此。技术发展增强了科学家的观察和实验能力,使他们发现了需要创新和系统研究的新现象和新见解。近些年来我们见证了数据科学的兴起。数据科学可以被定义为对数据的组织、属性和分析,以及数据在推理过程中的作用进行系统性研究的领域(Dhar,2013)。
现代科学研究更加依赖数据驱动,不同领域以及不同学科的科学家们之间互相合作研究愈发重要,这些现象有望改变科学研究过程中的研究方法,并产生一种被称为“科学2.0”的热潮(Kobro-Flatmoen et al.,2012)。受到足以颠覆人类社会认知的“数据工业革命”浪潮的推动,人类历史上*次有平台能够收集全世界范围内的观测和测量数据(即地球大数据)。利用这些数据,人们能够以接近实时的方式监测各种行星现象。这些观测数据跨越自然、物理等学科,数据组合方式多样,以至于只有*近得到蓬勃发展的人工智能技术(类似于现代的望远镜或显微镜)才能够洞察其中蕴含的知识。
同样的,有必要引入一门新兴的数据驱动的工程科学,综合运用大数据、人工智能和在线平台等手段,对包括自然世界、物理世界以及数据领域在内的地球进行整体地观测与研究,即地球大数据科学。
地球大数据科学的本质是数据驱动型科学,旨在提供方法和工具,以便从各种各样的、众多的、复杂的数据源中获取知识,以确保建立一个对保护地球至关重要的可持续人类社会。我们认为,地球大数据科学必须采用包括自然科学、社会科学和工程科学等多种科学在内的整体方法处理大数据和人工智能问题。为了产生可操作和信赖的知识,地球大数据科学需要研究由地球观测和社会感知数据构成的地球大数据生态系统,其中地球观测数据主要包括大气圈、水圈、生物圈、岩石圈等的多时相、多源观测信息,以及来源于经济、社会、政治、文化等要素统计结果的社会感知数据。因此,地球大数据科学的目标是利用来自地球观测和社会感知的数据,发展相关理论来理解这种社会一物理系统的运行和演变机制。地球大数据科学对于研究地球大数据生态系统的设计和架构,以及它在当今社会的数字化转型和地球的全球可持续性领域中的应用,具有重要意义(Guo et al.,2020;宋维静,2014)。
地球大数据科学的研究背景、论述领域及赋能过程如图1.1所示,下面具体阐述。
图1.1地球大数据科学背景、论述领域及赋能过程
1.2.1地球大数据科学的缘起与背景
进入21世纪以来,传感器、电子存储设备以及通信技术的进步引领了“数据工业革命”浪潮。全球数据生产量以及存储量呈现爆炸式增长,人类社会进入前所未有的大数据时代。作为观察、探索和理解世界的革命性创新,大数据在新的数据密集型时代被视为“战略高地”,引起了世界各国政府的持续关注。尤其是全球观测技术的发展和人类社会的高度交互性,人们已经采集并存储了海量的有关自然和人类社会现象的大数据。2014年,我们提出了“地球大数据”一词(Guo,2014),并于2017年创办了Big Earth Data期刊,为地球和社会科学研究带来了新的动力。
在大数据的推动下,所有新兴的知识平台和基础信息设施之间需要开放共享,涉及的所有合作伙伴需要相互信任、协作,以充分挖掘、利用大数据包含的丰富的知识。这种转变已经在现有的科学和技术系统中被具体落实,如迫使传统的数据管理、共享系统向更为复杂的、支持信息和知识生成的综合系统转变(Nativi et al.,2019;ITU-T,2017;Big Data Value Association,2019;Oliveira et al.,2019)。这些综合系统利用学习的分析方法来生成知识,通常需要公有的或私有的行业部门参与,如智慧城市平台、健康和工业4.0系统等(Song et al.,2017;Bohlen et al.,2018;Abidi,2019;Wong et al.,2019)。
为了完成地球科学数字化转型,涵盖更复杂的应用领域,并应对国际和跨学科合作所带来的挑战,我们设想将全球共享和可操作的数据库、知识与当地现实和活动联系起来,提高数据透明度、可重复性,促进知识的共同创造。这种设想需要新的见解、工作方法和可持续发展的系统,不断完善以满足现代社会的动态需求。我们应该着眼于为可持续发展和人类福祉寻找*佳的可能解决方案,包括跨地域尺度协作的新方法,倡导科学*立于政治议程,并提出基于证据的数据民主化建议。同时,这种新方法的应用必须同样适用于不断变化的约束和边界条件,例如数据所有权和控制权,数据安全性要求,技术实施的可行性以及机器的高度自主性。
数字化转型以及对自然资源的日益开发使可持续性挑战比以往任何时候都更加复杂和动态化。鉴于这些转变不会停止甚至减速,因此迫切需要一种新的科学方法和先进的循证决策形式,以造福社会、经济和环境。为了获得有关人类社会与地球系统(如自然现象)之间存在的关键相互作用和联系的必要知识,我们认为需要一门新的科学学科,即地球大数据科学(Guo et al.,2020)。
这门科学研究以“数据工业革命”产生的海量信息为研究对象,并利用创新的技术框架,如人工智能、物联网和数字孪生,研究社会变化,支持人类福祉,协助管理日益枯竭的自然资源,并使我们有能力为随时间推移而来的全球变化做好准备(图1.1)。总而言之,地球大数据科学旨在提供一种工具,从多样化的、众多和复杂的数据源中生成知识,以确保建立一个对保护地球至关重要的可持续人类社会。
1.2.2地球大数据科学研究领域
地球大数据科学的一个重要方面是通过经验式总结分析来发展新的基本知识,这也是地球大数据分析生态系统如何解决问题并产生新的知识的方式。地球大数据分析生态系统通常利用海量(跨学科的)的观测数据以及启发式的搜索方法来生成可操作的信息。因此,地球大数据科学被描述为研究已知信息的启发式搜索,并回顾经验性发现,以揭示生态系统如何使行为变得智能化。换句话说,地球大数据科学需要了解如何收集和组织数据、如何处理信息和获取情报,以解决有关地球可持续发展的重大问题。
地球大数据科学致力于研究大数据分析平台在解决论述领域范围内的现象和问题时所产生的作用与影响,这些现象和问题涵盖了一系列地球观测和社会感知事件,同时也是我们地球特征的具体表现(图1.1)。这些事件包含与自然循环过程相关的局部和全球变化,同时也包括与人类社会(如我们的社会与经济系统)紧密联系的局部和全球变化。在这些事件上,某些感兴趣的元素(变量)用于建模或描述地球系统的相关变化(例如,大气、水、陆地表面、冻土层和生物圈),而其他一些则用于表示社会变化。然而在传统上,地球观测和社会感知数据是在不同的框架和工具内单*管理与分析的。地球大数据科学旨在在多尺度、多时相的框架下,从局部到全球、从变化检测到可持续发展规划等各个方面,克服这些文化、学科和技术障碍。
地理空间和时间体系提供了一个强有力的底座,以整合在自然系统上相互关联的数据,并将其与社会、经济和文化现象联系起来(Goodchild,2004),这些现象有助于我们对地球的各种复杂系统与过程的知识理解(Goodchild,2009)。总
展开