大数据智能时代,数据作为新型生产要素已成为科研创新的基础战略资源。由于数据爆炸式增长,海量异构科学数据需要被更有效地分析、处理,以促进科学知识发现,由此产生了科学研究第四范式——数据密集型科研范式。《走向第四范式:数据密集型科学研究》在阐述数据密集型科研范式的概念、演变、特征、需求、发展趋势和面临的挑战基础上,重点调研、梳理、分析国际主流的数据密集型科研典型案例,剖析国内外数据密集型科研相关政策规划及数字基础设施建设项目,并对推进我国数据密集型科研范式和加强新型科研基础设施建设提出措施和建议。
第1章 数据密集型科研范式概述
随着信息技术的快速发展和科研数据的海量剧增,科学研究方法已经从之前的实验型、理论型、计算型转变为如今的数据密集型。越来越多的科研工作是基于现有科研数据的重新分析、组织、解析和利用,科研数据已经成为科学研究的知识基础及有力工具。数据、信息与知识的转化并产生新知识成为科学发现的关键,以数据密集型计算为主要特征的数据密集型科学研究范式已经到来。本章重点介绍科研范式的演变过程以及数据密集型科研范式的产生、核心内容、特征和对科学研究的影响。
1.1.科研范式的演变过程
科学研究为人们发明新产品和创造新技术提供了理论依据,支撑了人类社会对未知世界的探索和认知。科学研究讲究方式和方法,遵循一定的范式,且科学研究范式不是一成不变的,而是处于不断发展和演变过程中。
从研究方法论视角来看,科学是一种求知方式,而科学研究是一种以探寻科学为目的的智力型劳动。美国自然资源保护委员会(Natural ResourcesDefenseCouncil,NRDC)将科学研究定义为:科学领域中的检索和应用,包括对已有知识的整理、统计以及对数据的搜索、编辑和分析研究工作(吴岱明,1987)。科学研究也可以理解为人们有目的的探索和运用科学技术的活动,包括创造知识和整理知识两部分(王凭慧,1999)。由此可见,科学研究需运用科学的方式,以探索未知的现象为目的,揭示客观规律,创造新理论、新技术,开辟知识新应用领域。与其他活动相比,科学研究活动具有探索性、创新性、继承性和积累性等特点,其基本任务就是探索和认识未知。
早期的科学研究传统方式是先观察现象,再总结感觉经验,*后得出预言,以亚里士多德的三段论(syllogism)*为典型。随着人类社会的不断进步,科学研究经过观察现象阶段后,在总结经验阶段加入演绎逻辑环节,然后才得出结论,使科学研究开始否定感觉经验,推崇逻辑推理。近代与现代,科学研究方式发生了很大的变革,尽管依旧是开始于观察现象,结束于得出结论,但科学研究方法已经囊括了观察现象、发现问题、提出假设、运用逻辑包括数学(计算)、通过实验对推论进行验证、对结论进行修正和推广等环节。可见,科学研究方法链条已变得更为完善,加入了实验验证和对结论的修正等环节。但纵观历史的发展,伟大的科学家建立科学理论体系时,并没有完全遵守该科学研究方法链条,爱因斯坦是从现象直达数学,而亚里士多德、泰勒斯的研究是停留在经验世界和现象之间,伽利略和牛顿则是停留在现象和理论之间。这些科学家建立的理论体系之间相互*立。貌似这些科学理论体系的建立遵从着某些不同的规则,美国著名的科学史家和科学哲学家托马斯 库恩发现了这一奥秘,并正式提出了与科学研究密切相关的“范式”这一概念(何法信和孙晓云,1989)。
“范式”一词来自希腊文,原意是指语言学的词源、词根,后来引申为范式、规范、模型、范例等含义。1959年,托马斯 库恩在《必要的张力》一书中**次正式谈起“范式”(paradigm)时,由于找不到能够更好地用于表达一个公认的模型或模式的词语,故借用“范式”一词(托马斯 库恩,2004)。1962年,托马斯 库恩在《科学革命的结构》(The Structure of Scientific Revolutions)一书中指出“范式”是公认的科学成就,且在某一特定历史时期为这个科学共同体的成员提供了模型问题和解决方案;同时,对“范式”做出了清晰的界定和分析,将文化、社会和历史等因素注入到科学中,体现出科学的鲜明社会学转向(李堃和季梵,2019)。此外,托马斯 库恩还基于对常规科学本质的探讨,提出了“范式”的不同内涵(金吾伦,2009)。
(1)范式是开展科学活动的基础
托马斯 库恩在讨论常规科学的形成和本质时,将常规科学与范式联系在一起,认为一些公认的科学实践案例为后续研究提供了一些模型,从这些模型中产生了特定的、连贯的科学研究传统。范式是一种被接受的模型或模式,是科学共同体“普遍承认的科学成就”,并且是作为“一定时期内进一步开展活 动的基础”(纪树立,1982)。只有获得明确的具有约束力的范式,该科学领域的发展才标志着走向成熟。
(2)范式属于一种实用工具
常规科学研究就是解谜的过程,范式可以看作是范例,为解决问题提供了具体方法,将抽象的精神工具化为实际行动。范式确定后,科学共同体的研究不必从头开始,新老成员都在范式的基础上研究范式所提出的新问题,他们可以深入研究本领域*前沿的重大问题,从而获得更多的知识,解决更多的疑难,提高工作效率。
(3)范式属于一种共同信念
范式涵盖了除异常之外的所有现象,在科学家的观点中具有绝对的理论地位。新理论的兴起让科学家在接受时,在很大程度上对自然的信仰发生颠覆性转变,如在能量守恒定律成为物理学的一部分之前就必须放弃热质说。在这里,信仰本身并不依赖于范式,而是新范式促成信仰的转变。
一个稳定的范式如果不能提供解决问题的适当方式就会变弱,从而出现范式转移(paradigmshift)。范式转移就是新的概念出现,据此对某一知识和活动领域采取全新的和变化了的视角。通常,范式转移是由某一特别事件引发的过程。特别事件是指在现有范式中被证明是反常的事件,为了纠正这些特别事件,决策者尝试建立新的政策工具,如果这些努力不能奏效,就会出现政策失败,进而打击旧的范式,促使人们寻找新的范式(曾令华和尹馨宇,2019)。
例如,人们在发现地球是圆的而不是平的后,之前对地球上所发生的各种现象的理解全部都要重新考虑。这样,之前旧的范式(地平说)被一个新的范式(地圆说)所代替。从根本上来说,范式转移就是冲出原有的束缚和限制,为人们的思想和行动开创了新的可能性。
范式作为常规科学赖以运作的理论基础和实践规范,不是一成不变的。随着科学研究范式本身的发展,再加上外部环境的推动,新的范式在条件成熟时就会诞生。图灵奖得主、关系型数据库鼻祖吉姆 格雷(Jim Gray),于 2007年在加利福尼亚州山景城召开的国家科学研究委员会计算机科学与电信委员会(National Research Council-Computer Science andTelecommunicationsBoard,NRC-CSTB)大会上,做了“第四范式:数据密集型科学发现”(The Fourth Paradigm: Data-Intensive ScientificDiscovery)的演讲(Hey et al.,2009)。他指出,科学研究发展至今,已出现四种范式:描述自然现象的实验科学,使用模型或归纳法进行科学研究的理论科学,通过计算、模型等方法模拟复杂现象的计算科学,以及如今的数据密集型科学。如图 1-1所示,传统的科学研究经历了以自然实验为主的**范式实验科学,以理论的假设推理为主的第二范式理论科学,以计算和模拟为主的第三范式计算科学之后,进入了科学研究第四范式时代,即数据密集型科学。
图 1-1.科研范式演变过程(姜明智等,2018)
(1)**范式:实验科学
人类*早的科学研究,主要以记录和描述自然现象为特征,又称为实验科学或者经验科学(**范式)。这种方法自 17世纪的科学家弗朗西斯 培根(Francis Bacon)阐明之后,一直被科学界沿用。实验科学是偏重于经验事实的描述和明确具体的实用性的科学,研究方法以归纳法为主,带有较多盲目性的观测和实验,从钻木取火时期的原始阶段,发展到后来以伽利略为代表的文艺复兴时期的科学发展初级阶段,开启了现代科学之门。实验科学作为*早出现的科研范式,大多是对自然现象进行重复实验而得到成果的。例如,爱迪 生测试几千种材料而发明了钨丝灯泡,富兰克林收集雷电而发明了避雷针等都属于典型的实验科学。
(2)第二范式:理论科学
实验科学由于受到当时实验条件的限制,难以完成对自然现象更精确的理解,科学家开始尝试尽量简化实验模型,去掉一些复杂的干扰,只留下关键因素,然后通过演算进行归纳总结,即第二范式——理论科学。理论科学是在实验科学的基础上发展而来的,是对现象的理论总结和概括,强调普遍原理的发现而不是针对单个现象的研究实验。理论科学的主要研究模型是数学模型。典型范例包括:数学中的集合论、图论、数论和概率论;物理学中的相对论、弦理论、圈量子引力论;地理学中的大陆漂移学说、板块构造学说;气象学中的全球暖化理论;经济学中的微观经济学、宏观经济学、博弈论;计算机科学中的算法信息论、计算机理论。随着验证理论的难度和经济投入越来越高,科学研究开始显得力不从心。
(3)第三范式:计算科学
20世纪中叶,冯 诺依曼提出了现代电子计算机架构,利用电子计算机对科学实验进行模拟仿真的模式得到迅速普及,人们可以对复杂现象进行模拟仿真,推演出越来越多复杂的现象,典型案例如模拟核试验、天气预报等。随着计算机仿真模式越来越多地取代实验,它逐渐成为科研的常规方法,即第三范式——计算科学。计算机的发明使得计算能力不断增强,科学从理论推理转向计算仿真,计算科学被认为是实验科学和理论科学的扩展,是通过计算机分析和模拟来解决科学问题的新范式。
(4)第四范式:数据密集型科学
在信息与网络技术迅速发展的推动下,大量从宏观到微观、从自然到社会的观察、感知、计算、仿真、模拟、传播等设施和活动,产生出大量科学数据,形成被称为“大数据”的新的科学基础设施。随着数据的指数级增长,计算机除了能进行模拟仿真之外,还能进行分析总结,得到理论。因此,从第三范式中分离出一个新的范式即数据密集型科学,该范式也成为一个*特的科研
目录
第1章数据密集型科研范式概述
1.1 科研范式的演变过程 2
1.1.1 科学研究的概念 2
1.1.2 范式的内涵与转换 3
1.1.3 科研范式的演变 4
1.2 数据密集型科研范式的产生 8
1.2.1 数据密集型科研范式的产生背景 8
1.2.2 数据密集型科研范式的提出 28
1.3数据密集型科研范式的核心内容 30
1.4 数据密集型科研范式的特征 33
1.4.1 研究客体的变化 34
1.4.2 科研驱动方式的变化 34
1.4.3 数据要求的变化 35
1.4.4 研究手段的变化 35
1.4.5科学发现模式的变化 35
1.4.6 科研组织模式的变化 36
1.5数据密集型科研范式对科学研究的影响 36
1.5.1 催生出科学研究新场景 37
1.5.2 数据被视为研究基础设施 38
1.5.3 提高了科研相关方对数据重视的程度 38
1.5.4 给学术信息交流带来的深刻变化 39
1.5.5 对支撑科学研究的数字基础设施提出更全面的需求 40
1.5.6 推动全球“开放科学”运动 40
第2章数据密集型科研环境发展态势
2.1 积极制定大数据发展战略规划 46
2.2 国内外持续加强数字科研基础设施建设 48
2.3全球数据管理与开放共享运动快速发展 55
2.3.1 数据管理与开放共享政策的制定 55
2.3.2 数据管理机构与数据中心的建设 58
2.4 数据密集型科研呈现开放与包容的发展态势 62
2.5数据密集型科研面临多方面挑战 65
第3章支撑数据密集型科研的数字基础设施典型案例
3.1 通用数字科研基础设施 70
3.1.1 欧洲开放科学云 70
3.1.2 欧盟第七框架项目 80
3.1.3 欧洲开放获取基础设施研究项目 84
3.1.4 美国俄亥俄超级计算机中心 86
3.2 专业领域数字科研基础设施 89
3.2.1 欧洲生命科学大数据联盟基础设施 89
3.2.2 欧洲开放科学云-生命科学领域 91
3.2.3 环境研究基础设施 93
3.2.4 综合碳监测系统 96
3.2.5 AGINFRA+ 98
3.2.6 迈向农业开放科学的电子基础设施路线图 99
3.2.7 AgGateway 102
3.2.8 欧洲植物表型组学会 103
3.2.9 LifeWatch 105
3.3数字科研基础设施建设启示 106
3.3.1 强化云计算关键技术的应用 107
3.3.2 强调遵循数据的开放获取和FAIR原则 108
3.3.3 注重数据和服务间的互操作性和标准化 109
3.3.4 重视基础设施建设的整体统筹和长期可持续性 109
第4章数据密集型科研典型应用案例及启示
4.1 数据密集型科研典型应用案例 114
4.1.1 地球大数据科学工程 114
4.1.2 **张黑洞真实照片 116
4.1.3 欧盟“人脑计划”项目 118
4.1.4 医疗大数据应用技术国家工程 123
4.1.5农业气候和经济建模 124
4.1.6 食品安全风险评估 125
4.1.7 水稻计算育种 126
4.1.8 华大基因工程 127
4.1.9 大科学项目斯隆数字巡天 128
4.1.10 数据驱动型农业物联网应用 129
4.2 数据密集型科研典型应用案例启示 130
4.2.1 重视虚拟科研环境搭建 131
4.2.2 加强科研数据体系建设 131
4.2.3 着重提升数据计算分析能力 132
4.2.4 强化大数据关键技术应用 133
第5章数据密集型农业科研应用
5.1 数据密集型农业科研的新需求 136
5.1.1 注重多学科领域的协同创新 136
5.1.2 加强数字科研共享基础设施的建设 137
5.1.3 强化信息技术与领域技术的深度融合 138
5.1.4 重视数据和智能双向驱动的科研体系建设 139
5.1.5 重视数据密集型计算模型的构建 140
5.2 数据密集型农业科研平台典型架构 140
5.3数据密集型农业科研应用场景 144
5.3.1 作物计算育种 144
5.3.2 多组学大数据与表型性状关联分析 145
5.3.3 植物病虫害监测预警 146
5.3.4 农业绿色发展智能预测 147
5.3.5 基因工程疫苗协同研发 148
第6章结语与展望
6.1发达国家高度重视和关注数据密集型研究 152
6.1.1 美国国家科学基金会对数据密集型科学计算的持续支持 152
6.1.2 欧洲网格基础设施发布促进数据及计算密集型科学发展的策略 153
6.1.3 英国科学和技术设施理事会提出数据密集型科学的发展方向 154
6.1.4 美国国家医学图书馆致力于数据驱动科研平台的规划与实现 155
6.2 加快推进数据密集型科研发展的建议 158
6.2.1 加强政策创设,强化体制机制创新 158
6.2.2 加强科研基础设施建设及开放共享 160
6.2.3 加强标准规范的制定与数字服务体系建设 162
6.2.4 积极推进科研组织模式转型与人才队伍建设 163
参考文献 167
温馨提示:请使用泸西县图书馆的读者帐号和密码进行登录