**章科学数据与开放共享
诞生于16世纪的近代自然科学,开启了通过实验来描述和解释自然现象的研究范式。数百年来,科学不断涌现出新的领域和学科分支,计算科学的出现开始了对复杂自然现象的仿真模拟,改变了传统的实验科学方法。模拟生产出大量数据,实验科学面临巨量的数据增长,科研活动正在发生变化,新的研究范式将理论、实验和计算仿真统一起来,由仪器收集或仿真计算产生数据、由软件处理数据、由计算机存储信息和知识,科学家们开始通过数据管理和统计方法分析数据和文档。今天,科学的世界正在从实验科学步人数据科学。人类基于系统的数据观察,在对所采集并仔细保存的实验数据进行挖掘和分析的基础上建立起新的理论,提出新的研究成果,数据密集型的科学范式概念自然而生。《第四范式:数据密集型科学发现》①一书将这一以大数据为基础的数据密集型科学(data-intensive science)研究,称为继实验科学(experimental science)、理论科学(theoretical science)、计算科学(computational science)三种科研范式后,科研人员进行科学研究及科学发现的“第四范式”。
**节科学数据的定义与特点
一、科学数据的定义
关于科学数据,目前国内外尚未形成一个统一的内涵界定,有的政府文件中使用“研究数据”(research data)这一概念,也有大学或科研机构使用“科研数据”(scientific data)这一称谓。本书选取国内外比较有代表性的科研机构对科学数据的相关定义,具体见表1.1。OECD将研究数据解释为:数据研究基本来源的实时记录(数值、文本记录、图像和声音),被科学团体共同接受的对研究结果有用的数据?。美国OSTP将研究数据定义为:科学界普遍接受的用以验证研究结果的数字记录事实材料,包括用于支持学术出版物的数据集②。哥伦比亚大学《研究数据保存指南》认为,研究数据是指任何在相关研究领域内被广泛接受的记录信息,这些信息既反映了通过大学研究调查所获得的事实,也是重建和验证大学研究结果,以及探究导致这些结果的事件和过程所必不可少的,无论其以何种形式或媒介进行记录。研究数据包括无形数据(如统计数据、研究发现、公式等)以及有形和数字形式的数据(如实验笔记本、研究协议、病例记录等)③。我国《科学数据管理办法》将科学数据定义为:在自然科学、工程技术科学等领域,通过基础研究、应用研究、试验开发等产生的数据,以及通过观测监测、考察调查、检验检测等方式取得并用于科学研究活动的原始数据及其衍生数据①。从本质上看,科学数据、研究数据以及科研数据并无太大区别,为了避免概念的混淆,本书将研究数据和科研数据统称为科学数据。
比较上述定义可以看出,国内外对科学数据的理解存在着差异,主要分为结果视角下的科学数据和过程视角下的科学数据。从结果视角来看,科学数据主要是以数字形式记录的,用来验证和检验研究发现的一些真实资料。因此,科学数据侧重于研究过程中直接产生的、用于验证研究过程的可重复实验的原始研究数据,OECD、OSTP等国外机构主要从结果视角阐述了科学数据的概念和内涵。从过程视角来看,科学数据涵盖了广泛的数据类型,不仅包括原始实验结果、仪器输出、用于收集和重构数据的相关协议、数字、图形等资料,还包括在研究过程中获得和衍生出来的数字校稿、文本记录、图像、声音、软件和模型等数据①。因此,过程视角下的科学数据的内涵更加丰富,除了包括在传统条件下“理论预测+实验观测”科研过程中所产生的实验观测结果之外,还包括将科学研究对象(包括社会科学领域)以计算机仿真和模拟分析等方式产生的数字表达,以及从原始数据(包含数字表达对象)到中间数据*终到研究结果的科学工作流②。
本书中“科学数据”这一概念,根据国内外应用情境的不同,在指代上略有差异。在介绍国外经验的部分,科学数据主要是指在国外政策语境中,基于结果视角的研究数据或科研数据;而在其他部分,则主要指基于过程视角的广义科学数据,即被收集起来并作为推理、讨论或计算基础的所有信息,特别是事实或数字。广义科学数据既包括科学研究过程中直接形成的原始数据,又包括与科学研究相关的、助推科学研究活动的文件、调查结果、音/视频记录等衍生数据。
二、科学数据的特点
科学数据是国家科技创新和发展的基础性战略资源。随着大数据时代的到来,科学数据日益呈现出4V特征,并具有巨大的潜在价值和可开发价值③。
(一)科学数据体量(volume)大
目前存在着大量从宏观到微观、从自然到社会的观察、感知、计算、仿真、模拟、传播等设施和活动中产生的科学数据?,这些数据在科学技术研究、试验开发等过程中通过观测、调查等方式获取,并用于科研活动的原始数据及其衍生数据。在大数据背景下,科学数据的产生已从之前实验室中单一设备采集的个体数据转变为通过广泛分布的传感器、摄像头等设备采集的海量数据②。王瑞丹等认为,在大数据时代,随着多源、异构海量科学数据的持续产生、积累,数据密集型科学也经历了从传统的基于假设驱动的探索模式,向基于数据进行科学探索的转变。尤其近年来,在生命与健康、天文等学科领域,通过持续观测、监测等方式,产生并积累了海量科学数据,这使得对数据的开放共享与分析挖掘的需求变得更为迫切③。
(二)科学数据类型(variety)多
无论是心理学家收集调查数据以更好地了解人类行为,还是艺术家使用数据生成图像和声音,抑或是人类学家使用音频文件记录对不同文化的观察,所有科学领域的学术研究都越来越以数据为导向?。此外,根据科学数据产生的过程,可以将其分为以下不同的类型。
(1)观测数据:实时捕获,通常是不可替代的,如传感器数据、调查数据、样本数据和神经图像。
(2)实验数据:从实验室设备中获取,通常是可复制的,如基因序列、色谱图和环面磁场数据。
(3)仿真数据:从测试模型中生成,其中模型和元数据比输出数据更重要,如气候模型和经济模型。
(4)参考数据与规范数据:经过同行评议、系统整理的专业数据集合,通常以数据库形式发布和维护,如基因序列数据库、化学结构数据库或
空间数据门户等。
(5)衍生或编译的数据:由预先存在的数据点转化而来,如数据挖掘、编译数据库和三维模型。
(6)Web数据:受信息技术革新的影响在互联网环境下产生的行为数据和交易数据①。
(三)科学数据处理速度(velocity)快
科学数据处理速度快,可以理解为更快地满足实时需求。目前,许多前沿研究领域取得的重大突破和发现也越来越依赖于海量科学数据的分析、挖掘和利用,科研水平的高低和科研成果的优劣也越来越依赖于科学数据的积累以及将数据转换为知识的能力的双重能力②。为了更好地指导科学数据的管理,学术界、工业界、资助机构和出版机构等领域的利益相关者共同构建了科学数据共享和管理的FAIR原则。FAIR原则包括可发现(findable)、可访问(accessible)、可互操作(interoperable)和可重用(reusable)4项基本原则和15条具体指导原则③。相比于大数据而言,科学数据具有更易被机器读取、便于用户及时发现、用户和机器无障碍访问、有明确的开放协议许可等优势,因此数据处理速度更快。
(四)科学数据价值(value)高
科学数据的价值主要表现在三个方面,即科学价值、经济价值及社会价值。其中,科学价值表现在它既是科学研究的基础,又是科学研究的“牵引力”;经济价值表现在它可以直接或间接地为数据创建者、数据使用者带来经济效益,各类科研成果、著作权等的转让过程都体现了科学数据的
展开