第1章绪论
1.1概述
随着数字化时代的发展和智能化时代的到来,各个行业都积累了海量的数据。同样,在地质领域,随着全球范围内地质勘查工作的不断开展与数据采集手段的不断丰富,各式各样体量庞大的数据,诸如地形地貌、传感监测、遥感影像、钻孔、平硐及物探化探等信息,都呈现出了持续激增的趋势。例如,世界气候研究计划“耦合模拟工作组”组织的第五次气候耦合模型对比项目(Coupled Model Intercomparison Project Phase 5,CMIP5)的数据总量超过3PB(1PB=1000TB=1000000GB),而下一代CMIP6数据总量超过30PB(Sang et al.,2021);谷歌地球(Google Earth)的容量超过了5PB(来自官方统计:GEE包含的数据集超过200个公共的数据集,超过500×104张影像,每天的数据量增加大约4000张影像,容量超过5PB),自然资源部中国地质调查局已建成十大类48个国家地质数据库,数据量超过700TB(马凯,2018);我国全国地质资料馆馆藏的地质资料超过17×104档,总数据量达220TB。地质大数据研究工作得到了国内外空前的重视,美国、英国等国家的地质调查机构都认识到了地质大数据研究和应用的重要性,并制定了相应的地质大数据研究行动计划。目前,世界各国正在大力开展的城市、矿山、油田、工程的三维地质建模和“玻璃地球”建设,这也正是实现地质科学大数据集成化存储、管理的基本方式(吴冲龙等,2020)。
地质数据主要产生于基础地质、矿产地质、水文地质、工程地质、环境地质、灾害地质的调查、勘查和相应的地质科学研究过程中,以及能源、矿产的开发利用和环境、地灾的监测、防止过程中,以及各类天基、空基对地遥感观测的活动中。这些来源不同、尺度不同的地质数据在精度、分辨率、数量、质量等方面都存在较大的差异,其统计特性里包含了大量的不确定性。同时,海量的地质数据也具备大数据四大特征:体积、速度、多样性和准确性(volume、velocity、variety、veracity,简称“4V”)(吴冲龙等,2020)。地质工作进入了数据密集型模式,巨大的数据体量使目前地质研究面临着两个重大的挑战:①如何从这些复杂的海量激增的地质数据中提取并解译出有用的信息;②如何在遵循相关物理定律的前提下,以数据驱动的方式,获得比传统分析方法更多的有效特征。
由于数据的采集速度远大于人们所能消化的速度,数据量的增加并不能等价提升人们对系统的理解,科学家需要对数据进行更深入的研究。在这种背景下,机器学习和数据挖掘成了一种极佳的选择(周志华,2016)。地质大数据属于时空大数据的一种,采用大数据技术直接在海量地质数据中挖掘知识,能突破“采样随机性和样本空间狭小”的传统地质数据分析方法的限制,可以推进数据驱动的地质智能服务,改变传统地质数据应用和协同服务能力不足的现状,促进地质科学的发展。利用机器学习原理进行地质分析在本质上是基于地质数据的算法建模过程,但又不等同于算法在地质领域的简单应用。目前的地质分析过程在很大程度上依赖于专家的主观经验,数据所呈现的规律性一般不直观,常常需要配合大量的专业知识进行综合解译,这就导致算法建模的难度很大。大多情况下,智能算法在地质分析中很难达到像自然语言翻译中的“可托管”的程度,而是以解决某一个关键环节为目的,扮演着一个辅助的角色。如何进一步发挥智能算法在地质分析中的作用,以及如何建立起一个跨学科整合的地质数据智能挖掘体系,是目前亟待解决的问题(周永章等,2018a)。
地质数据具有鲜明的时空特征,因此研究人员通常将地质问题划分成不同的尺度,即时间尺度和空间尺度(张发明等,2007;Wang and Chen,2018;Hill et al.,2021)。时间尺度涉及的问题包括地球演化和灾害预测等;空间尺度所关注的则是研究对象的空间范围或规模,通常又可划分为全球尺度、区域尺度、工程尺度、统计尺度和标本尺度,涉及的问题主要源自地质特征在空间上分布的差异性。在自然界和工程实践中,许多现象和过程都具有多尺度特征或多尺度效应,同时,人们对现象或过程的观察及测量往往也是在不同尺度上进行的。用多尺度系统理论来描述、分析这些现象和过程能够很好地表现问题的本质特征,因此近年来这已成为许多学科领域研究的热点。
地质数据的另一个重要特征就是多源性(王刚等,2015;Zhang and Zhu,2018;Pan et al.,2020)。由于分支领域众多,勘查采集方法复杂,地质数据中包含了各种各样多源异质异构且来源分散的数据。数据的离散性通常也比较大,同时受限于野外数据采集的条件,数据的可靠度往往难以得到保障,必须结合特殊的地质条件和采样方法对数据进行严格的筛选与预处理。此外,地质研究中非结构化数据(如遥感影像、钻孔摄影、地质雷达剖面、声波或地震波数据)的丰富程度要远远高于结构化数据,如何使数据能够匹配智能算法,以及如何改造算法或研发针对性的算法,是实现地质大数据挖掘所面临的重点和难点。
随着大数据时代的到来,传统研究方式的局限性越发明显,地质研究需要做出重大的变革。深入探索适用于地质领域的数据挖掘与机器学习算法,系统地考虑多源、多尺度特征的地质大数据智能挖掘方法,有助于深化人们对地球科学、工程地质、环境地质等地质学科的理解,全方位地促进地质领域的快速发展。
1.2国内外研究现状与发展趋势
地质数据分析的目的是通过采集的数据样本尽可能准确地描述地质现象或规律,数据分析方法通常取决于数据的形式以及所研究的具体问题。目前,主要的地质数据分析方法包含以下几类。
1.2.1地质统计分析
地质统计分析的一个典型代表就是地质统计学(肖斌等,2000;王恺其和肖凡,2019)。20世纪70年代,随着统计学应用在地质分析中的深入,地质统计学逐渐兴起,并发展成了地质学的一个重要分支。该理论以区域化变量理论为基础,以变异函数作为主要工具,对既具有随机性又具有结构性的变量进行统计学研究(侯景儒,1998)。*初其应用范围主要集中在异常评价(和成忠等,2020)、找矿勘探(王瑞等,2019)、矿体圈定(Hao et al.,2015)、储量计算(刘馨蕊等,2011)、矿山生产(庞汉松等,2020)及地学科研等。后来在国内外学者的共同努力之下,这一理论目前已扩展到了地球化学(王健,2018)、环境地质(黄小刚等,2019)、水利(刘晓民等,2014)、地球物理(陈鼎新等,2016)等各个分支。
除此之外,一些基于概率密度函数或相关性系数的单变量、双变量和多变量(黄润秋,2004;李典庆等,2015)的地质分析过程亦属于地质统计分析的范畴。单变量分析是假定地质数据样本中的各个变量是相互独立的,忽略变量之间的相关关系,对各个变量分别进行研究。常用的分析过程包括极值、均值、离散程度的计算及概率分布类型等(吴继敏等,2009),一个典型的应用就是研究不同构造背景下玄武岩各个主量成分的分布特征。双变量分析是指同时考虑地质样本中两个变量之间的相关关系,以建立二者联合概率密度函数或等式,或以投点的方式揭示其中的规律(张旗,1990),如岩石成分的哈克图、节理的玫瑰花图(杨春和等,2007)等。多变量分析是同时考虑多个地质要素之间的相关性的研究过程。在地质研究中存在着大量多个变量同时具有相关性的例子,如岩土体抗剪强度参数黏聚力和内摩擦角具有负相关性,而土体重度又分别与黏聚力和内摩擦角具有正相关性(唐小松,2014)。多变量的研究常常需要建立多维概率密度函数或相应的方程组;而在可视化方面,多变量较难采用图表进行分析,因此通常会对数据进行降维处理。
统计分析是地质研究中的重要基石之一,而在大数据时代,随着数据量和数据类型的不断扩充、数据概念的不断扩展以及量化方式的不断变化,传统统计分析方法的局限性愈发明显(朱建平和张悦涵,2016)。统计学的优势在于“以小见大”,但容易产生误差等问题;对于大数据来说,可以利用更多,甚至是总体数据,数据的限制因素已经成为历史。在这一背景下,如何提升地质分析中的统计效率、模型拟合度以及推断准确性,从而探索更深层次的统计规律,是当前地质学发展的重要趋势。
1.2.2序列分析
序列分析包括地质事件序列分析、时序数据分析及信号处理。
地质事件是地史演化过程中不同于正常地质历史发展的突发性、灾变性或具有特殊意义的地质记录(陆松年等,2001;刘翠等,2011),如地质构造中不同时期的断层网络,其相互间的切削、截断过程即反映了地质活动的先后顺序。在正确识别地质事件的性质和特征的基础上,需建立地质事件的序列,通常包括两个步骤:首先要在野外翔实的工作基础上建立地质事件的相对序列(王学滨等,2016);其次在此基础上运用多元同位素测年(刘松峰等,2021)等方法标定主要或特征地质事件的时代,建立地质事件的年代格架。野外地质调查是研究地质事件*重要和*基本的途径,在野外地质工作中特别要注意识别暴露地质现象本质、有丰富地质内涵或能够反映地质事件序列的露头,这一过程需要做大量和细致的研究工作(刘忠明和谭秋明,1994;赵晓辰等,2018)。
时序数据通常用来描述较有规律性的地质现象,其本质是关于时间的函数,通常可分解为长期趋势分量、周期分量(季节波动、循环变量)以及随机分量(Davis,1988;周翠英等,2008)。地质事件序列是由本身蕴含着的各种因素对其综合作用的结果,如水位浮动、气温变化、滑坡监测等。地质时序数据的分析过程以建立随机模型为主,常用的方法包括回归模型、马尔可夫链、频谱分析、数值模拟等。例如,黄友波等(2002)利用频谱分析法进行了水文序列代表性分析;Zhou和Tung(2013)采用多元回归分析推导了未来几十年全球变暖的趋势模型;Victorov(2015)利用马尔可夫链建立了滑坡过程概率模型;Zhang等(2020)通过有限单元法研究了河道周期性水位变化对三峡边坡稳定性的影响。
信号本质上也是一种时序数据,不过其处理方法更侧重于对信号的降噪、过滤和时频分析。地质中常见的信号数据包括地震波、声波、地质雷达信号、电场或磁场信号等,通常采用傅里叶变换、小波变换以及功率谱等方法进行处理。例如,利用希尔伯特-黄变换对隧洞的地质雷达信号进行分析,并进行了隧洞超前地质预报检测;何慧优和方剑(2021)利用频谱分析方法对物性差异较大的地层和矿体进行了计算;程铁栋等(2021)基于小波变换提取矿山微振和爆破信号特征,实现了矿山微震与爆破震动信号的自动辨识。
序列分析通常是多因素综合作用的结果,规律性复杂,分析过程对数学的依赖程度也较高,在实际研究中(尤其是在工程地质中)往往难以被充分挖掘。其实,序列是一种在各个领域都普遍存在的数据形式,研究人员针对这类问题提出了多种智能算法,而这些方法也让地质专家深受启发,利用智能算法进行地质序列数据分析也成了近年来的一个研究热点。例如,Agar等(2019)基于贝叶斯信念网络对油气勘查工程中地下断裂的部位进行了高精度的预测;张航(2020)利用深度神经网络对隧洞微震信号进行处理并实现了岩爆的智能预警;Liu等(2021)基于K近邻(K-nearest neighbor,KNN)算法对边坡次声波信号进行了分析及特征识别,为滑坡监测提供了有效的分析手段。
1.2.3空间分析与建模
针对具有空间坐标或相对位置坐标属性的数据(如地形数据、气象监测的气温、降水、矿点分布、岩层出露等),需要进行空间分析与建模(钟登华和李明超,2006;Chorley,2019)。常用的方法包括利用地理信息系统(GIS)或三维软件研究地理数据的空间分布模式、利用空间回归分析研究数据的趋势,以及在二维或三维层面建立整个区域内变量的连续分布模型。随着计算机技术的发展,空间建模与可视化在地质数据分析中占据了越来
展开