第1章 复杂地质环境遥感影像场景分类概述
1.1 遥感影像场景概念
遥感是以非接触的方式获取物体表面信息的一种信息获取技术。随着科技的发展,遥感已经从*初的可见光和近红外拓展到微波、红外、热红外等波段。特别地,我国近年来发展了以“资源三号”系列和“天绘”系列为代表的立体测绘卫星,使对地观测卫星数据源更加丰富。这些多模态的遥感数据,能够使研究者获取几何、纹理、光谱、数字地形模型、散射系数等多模态的数据产品,大大提升了遥感技术在民用和军用领域的应用能力。
随之而来的是,遥感卫星技术的高速发展使遥感影像的数量正在急剧增加,庞大数量的遥感影像所蕴含的有效信息也越来越丰富,如何充分挖掘并利用这些有效信息一直是遥感影像分析领域的重要研究内容。遥感影像除了在传统的地质调查、国土资源等部门有所应用,土地利用和土地覆被分类、灾害监测、环境监测和城市规划等领域也有着重要成果(胡凡,2017;Zhu et al.,2016;Chen et al.,2014;Martha et al.,2011)。随着遥感技术的飞速发展,高分辨率遥感影像的可获取能力越来越强,应用程度越来越高(Mishra et al.,2014;Phinn et al.,2012)。与中低分辨率遥感影像相比,高分辨率遥感影像地物目标的几何空间特性更加复杂,结构纹理等信息更为精细,为地物的精准解译提供了基础数据支撑。然而,随着遥感影像空间分辨率的提高,影像中出现了地物结构多变的情况,使得“同物异谱、同谱异物”的现象更加显著。这导致地物类别愈加难以区分,给高分辨率遥感影像的精确解译带来极大挑战。经过十几年的研究发展,从像素级影像分类到对象级影像分类的过渡已经基本完成,但是在高分辨率遥感影像中的语义挖掘还远远没有结束,研究人员致力于挖掘更高层次的语义信息(Chen et al.,2014)。
在高分辨率遥感影像中,单个像素的意义不大,特别是其分类结果的信息量不足以解释特定区域内具有明确意义的对象。地物影像特征通常由不同的形态、结构及纹理信息组成,通过不同的组合和空间排列形式,可以形成不一样的场景语义类别。比如“商业区”场景,通常由建筑、植被、道路等要素组成,这些地物以一定的空间布局和排列方式构成了商业区,但是同样的地物根据某种特定的语义关系也可以组成居民区等其他类别。多种简单地物混合而成的高层场景语义信息在高分辨率遥感影像上得到了清晰的展现,相同的地物类别通过不同的空间语义关系可以组成不同的高层场景类别。
为了更好地解释高分辨率遥感影像,需要考虑更大尺寸的影像块或子影像的特征,并考虑背景信息来做出综合判断。从这个角度出发,有必要定义一种新的研究影像特征的尺度。因此,遥感影像场景是一种具有特定空间尺寸的影像块,在综合考虑该影像块上下文信息和特定信息的情况下,为其指定明确语义。
然而由于影像的底层特征到高层语义信息之间存在语义鸿沟,手工设计方法中的地物特征分类难以有效地理解重要区域的场景语义(朱祺琪,2018),深度学习中传统的卷积神经网络同样也没有特定的网络结构来理解多尺度地物复杂排列所构成的语义关系。
1.2 遥感影像场景分类概念及难点分析
1.2.1 概念
对遥感影像进行高精度的自动分类是遥感影像智能解译技术的基础,也是实现遥感对地观测技术大规模高效应用的前提。由于遥感影像的像素只能包含较低层次的地物信息,随着遥感影像分辨率的不断提高,传统“面向像素”和“面向对象”的分类方法不能对遥感影像高层次语义内容进行描述,无法满足高层次内容的解译需求(胡凡,2017)。为了应对这一问题,结合更大解译单元内的上下文信息进行“面向场景”的遥感影像分类,是当前实现高分辨率遥感影像语义内容解译的重要手段,也是研究热点之一(Chen et al.,2014)。
遥感影像场景分类是对给定的遥感影像根据主要地物内容来判断影像场景的类别,并根据高层次的场景信息对影像标签分类,是一种有效解析并得到高层次语义信息的遥感影像技术,也是高分辨率遥感影像分类领域近年来的一个重点研究方向。遥感影像场景分类在日常生活的各个方面都发挥着重要作用,例如在自然灾害监测(Martha et al., 2011)、土地使用和土地覆盖(Zhu et al.,2016)、植被制图(Mishra et al.,2014 )及环境监测和城市规划(Phinn et al.,2012)等领域都具有很高的实际应用价值。
1.2.2 难点分析
与“面向对象”和“面向像素”的分类任务不同,遥感影像场景中地物目标空间分布复杂并且形式多样,相同的场景类别可能由不同的地物目标构成,而相同的地物目标基于不同的空间分布可以构成不同的场景类别(朱祺琪,2018)。例如商业区、住宅区和工业区都包含建筑物、树木和道路等相同的地物目标,这些地物目标的空间分布都各不相同。此外遥感影像场景中地物目标还存在复杂的背景干扰,这些因素使得高分辨率遥感影像场景分类成为一项极具挑战性的任务。
目前遥感影像场景分类的主流方向是特征提取和语义分类两个方面,由于特征提取在遥感影像场景到语义类别的映射过程中起着更加重要的作用,受到了学界更多的关注和研究(Cheng et al.,2017)。传统的场景特征提取方法十分依赖人工设计的底层特征,特征描述能力不足,限制了分类的性能。后来发展的决策树、支持向量机、随机森林等方法对底层特征进行再编码,在分类效果上取得较大的改善,但这些算法不能针对遥感影像本质特征而设计,泛化能力差,在对场景的描述上仍然存在很大的局限性。遥感影像数据与自然影像相比具有多样性和复杂性的特点,因此需要利用数据驱动型的算法来对遥感影像场景进行准确分类。
近年来随着深度学习技术的快速发展,卷积神经网络较传统方法能更好地提取*本质的数据特征,并且泛化能力强,大大地提高了遥感影像场景分类的准确率,成为遥感影像场景分类的主流方法(Nogueira et al.,2017)。然而,尽管深度学习技术能够有效地提升特征提取的能力,其提取到的特征非常依赖网络模型的设计。遥感影像场景中复杂的地物分布和成像差异使得场景之间存在类内多样性和类间相似性的问题,制约了遥感影像场景分类精度的进一步提升。同时随着遥感影像分辨率升高和影像数量增加,网络模型在处理这些数据时对计算资源的需求也越来越大,在实际应用中难以推广。
1.3 复杂地质环境遥感影像场景特征及应用
当前,遥感影像场景分类研究程度较低。特别是在深度学习技术的驱动下,出现了一批遥感影像场景数据集,这些数据集极大推动了基于深度学习的遥感影像场景分类研究,涌现了一批研究性成果。然而,当前基于深度学习的遥感影像场景分类研究主要聚焦于两个方面:一是构建公开的数据集,这些数据集的图像块语义整体较为简单,无论从学科领域还是从研究对象来看,都无法体现地球表层的复杂性和系统性,导致当前的研究成果无法满足行业发展需求;二是对公开遥感影像场景数据集的算法测试,这些算法大多是从特征提取的角度,基于深度卷积网络不断发展的。但是,由于缺乏多类型的复杂地质环境遥感影像场景数据集,这些面向公开数据集的遥感影像场景分类模型的泛化能力较低,同样无法满足区域尺度遥感影像场景分类的实际需求。
复杂地质环境遥感影像场景应该具备三个特征:一是景观类型复杂,例如城市环境景观、矿区景观、山区景观等;二是地形地貌复杂,如山区遥感影像场景、地形切割强烈的地表多要素场景等;三是地质背景复杂,例如面向特定领域应用的对遥感影像解译专业要求极高的岩土体类型遥感影像场景等。面向上述复杂地质环境遥感影像特征的场景分类方法研究,称为复杂地质环境遥感影像场景分类。
显然,复杂地质环境遥感影像场景分类研究的意义不仅局限于模型的算法精度,其分类结果不仅可以用于地理国情监测、灾害调查与监测等民用领域,也可以用于军事战场环境构建与辅助作战行动中。特别地,在军事活动中,复杂地质环境遥感场景分类可以为战略通道选择、作战方向选定、作战目标确定、全地形野外通行能力评估、地质环境抗爆抗打击能力评估等方面提供辅助决策依据。
1.4 国内外研究进展
场景分类的基本假设是同一类的场景应该具有一定的整体视觉统计特征(Oliva et al.,2001),这一点在自然场景中得到验证并对遥感影像场景分类有很好的指导作用。因此,大多数关于遥感影像场景分类的工作集中在提取并识别这样的整体视觉特征。根据特征的种类可以将遥感影像场景分类方法分为三种:基于底层特征提取的遥感影像场景分类方法、基于中层特征提取的遥感影像场景分类方法和基于深度学习的遥感影像场景分类方法。
1.4.1 基于底层特征提取的遥感影像场景分类方法
传统遥感影像场景分类方法主要依靠人工设计的底层视觉特征,这些特征一般依靠遥感领域专家结合高分辨率遥感影像解译知识和待分类场景的先验知识进行精心设计,大致可以分为颜色直方图特征、结构特征和纹理特征三类。颜色直方图特征考虑的是影像的颜色信息,不关心影像本身尺寸和方向变化,但受光照变化和局部偏差影响较大。许多学者将颜色直方图特征应用到遥感影像场景分类中,例如 Aptoula 等(2013)利用颜色空间编码的方法改善了遥感影像场景分类,van de Sande 等(2009) 采用了色相、饱和度、明度(hue saturation value,HSV )颜色直方图来描述遥感影像场景信息。而结构特征和纹理特征主要描述的是影像的空间信息,其中尺度不变特征变换被广泛应用于描述遥感影像复杂的结构特征,主要对场景影像中结构的局部变化进行建模,对影像的尺度和旋转变化鲁棒性较高。常见的纹理特征包括灰度共生矩阵、局部二值模式和基于形状的纹理不变指数等。一般学者会将以上的基本特征进行组合用来改善分类效果。例如Yang 等(2010)采用尺度不变特征和Gabor 纹理特征并通过金字塔视觉词袋模型实现了场景分类。程刚等(2011 )将结构特征和纹理特征相结合用于遥感影像场景分类。
总的来看,基于底层特征提取的方法描述的是影像底层次的特征,该方法可以在一定程度上提高遥感影像场景特征的表达能力和分类性能,但非常依赖人工设计的局部特征提取,本质上也是一些底层特征的整合,并没有上升到高层语义信息,仍然跨越不了底层特征和语义场景类别之间的“语义鸿沟”(刘艳飞,2019)。所以该类方法只能在具有统一结构和空间分布的场景上取得良好的表现,但当遥感影像场景非均匀或多样性强时,该类方法的分类效果并不理想,这也是人工设计特征和编码方法共同面临的局限性。
1.4.2 基于中层特征提取的遥感影像场景分类方法
中层特征提取是在底层特征的基础上对特征进行再编码和组合。该类方法先从遥感影像中获取局部低级特征,然后将低级特征向中层特征进行映射,*后将获取到的中层特征表达用于遥感影像场景分类。目前此类方法主要分为三种:基于视觉词袋模型的场景分类方法、基于特征编码的场景分类方法和基于主题模型的场景分类方法。
视觉词袋(bag of visual words,BoVW)模型*开始应用在文本处理(Blei et al.,2003),词袋模型算法主要思想是先用尺寸不变特征变换(scale invariant feature transform,SIFT )等描述符来描述影像的局部特征,然后运用聚类算法将影像局部特征进行聚类生成词典,*后统计词典中单词的频率来表示影像的词袋特征。很多学者将词袋模型应用到遥感影像场景分类中,将遥感影像看作文本信息,挖掘遥感影像中视觉单词的词频来进行特征表达。原始词袋模型只统计了相关单词的词频,忽略了其空间关系,然而视觉单词的空间分布关系例如共生关系对遥感影像场景分类至关重要,因此该类方法的分类效果并不理想。后续学者在此基础上提出了一系列改进方法,例如Zhao 等(2014)在词袋模型的基
展开