第1章 绪论
1.1研究背景
近年来,随着计算机软件、硬件水平的不断提高,利用计算机视觉技术自动从图像或视频中获取目标的运动信息和三维结构已在社会生产、生活、军事交通、航空航天等领域得到广泛应用并发挥着重要作用.如在无人驾驶中的障碍物检测、无人机定位、目标追踪以及VR(虚拟现实)等应用场景中,计算机视觉均作为核心技术扮演着重要角色.光流作为上述计算机视觉任务的重要基础,自Horn和Schunck提出以来,逐渐成为计算机视觉技术研究领域的重要内容.
当人的眼睛观察包含运动物体的场景时,运动物体会在人的视网膜上形成一系列连续变化的图像信息,这些连续变化的图像信息像水流一样不断“流过”视网膜,所以称之为光流(Optical Flow,OF).将其理论化定义则有:光流是指运动物体或场景表面的光学特征部位在投影平面的瞬时速度.从光流的定义可以看出,光流的存在包含以下三个要素:第一是包含运动即速度场,这是光流形成的必要条件;第二是运动物体表面要可以携带信息的光学特征部位;第三是能够被观察到,即可以成像投影.光流存在的三个要素也反映出光流不仅包含了物体或场景的运动参数,还携带了丰富的三维结构信息.
在早期的研究中,受计算机硬件水平和计算能力的限制,研究人员大多针对图像序列光流计算理论进行研究,主要解决光流计算的不适定问题和连续性问题.通过构建一系列数学方程,并利用多种优化策略使方程获取*优解进而得到*终光流结果.计算机计算能力和算法不够完善,使得光流计算的时间、计算精度和鲁棒性难以满足高精度计算机视觉任务需求,限制了光流技术的发展和应用.近年来,随着深度学习技术的快速发展和计算机计算能力的不断提髙,光流计算的精度、鲁棒性和效率得到了显著提高,图像序列光流计算技术研究成为当前计算机视觉研究领域热点.
1.2图像序列光流定义
1.2.1运动场与光流场对应关系
物体在三维空间内运动,其在图像平面上的投影也会形成对应的图像运动.如图1-1所示,令摄像机镜头位于原点0处,在摄像机观测范围内有一物体相对于摄像机运动,假设其表面上的任意三维点P经时间At后运动到点P'处,则P点在成像平面上的对应投影点q经时间At后运动到点P'的对应投影点q'处.
已知三维点P和图像点q的移动距离分别为drP和drq,则三维点P的移动速度vP和图像点q的移动速度vq可以表示为
(1-1)
(1-2)
式(1-1)和(I-2)中,rP和rq具有如下对应关系:
(1-3)
式中,f是摄像机焦距,Z是三维点P的深度.式(1-3)描述了三维运动物体和成像平面投影的对应关系.图像中所有像素点光流矢量的集合称为光流场(Optical Flow Field,OFF),在理想情况下,图像光流场与成像平面的运动场是对应的,但实际情况却不全是如此.这是因为光流形成有三个必要条件:首先,要有运动场,即物体或场景与摄像机之间的相互运动.其次,物体或场景表面要带有包含光学特性的部位,例如有灰度或彩色信息的像素点.*后,要有成像投影,以便于观察.当满足这三个条件时,通常认为光流场近似等于图像平面运动场.
图1-2展示了材质球运动与光流场的对应关系,其中图l-2(a)是合成材质球平移图像序列第36帧原图像,图像中材质球由左上方向右下方作平移运动.图l-2(b)是该图像序列第36、37帧间的光流场.图中材质球的光流场与其运动场一致,研究光流的目的也就是为了从图像序列中近似计算出不能直接得到的运动场,从而利用图像运动与三维运动的对应关系实现运动物体或场景的三维重建.
1.2.2光流基本约束方程
假设在时刻t时,图像中像素点(x,y)处的灰度值为I(x,y,t);在时刻(t+At)时,该像素点运动到点处,其灰度值为.根据图像灰度一致性假设,即当图像时间间隔很短时,图像中灰度保持不变,满足,则图像像素点灰度守恒假设(又称为亮度守恒假设)可以表示为
(1-4)
令u和v分别表不像素点光流矢量沿x和y轴的两个分量,将式(1-4)中等号右边部分用泰勒公式(Taylor Formula)展开可得
(1-5)
忽略式(1-5)中的二阶以上高阶项后代入式(1-4)中可得
(1-6)
由于,式(1-6)可以写为
(1-7)
令分别表本图像像素点灰度沿x轴、y轴和时间t方向的偏导数,则可以得到线性化的亮度守恒假设公式:
(1-8)
式(1-8)就是亮度守恒假设,也称为光流基本约束方程(Optical Flow Constraint Equation,OFCE).将其写成矢量形式为
(1-9)
式(1-9)中,表示一阶梯度算子,表示图像像素点光流矢量.如图1-3所示,由于光流矢量包含两个变量,而光流的基本约束方程只有一个公式,利用光流基本约束方程只能求出光流矢量沿梯度方向上的值,而不能同时求出光流矢量的两个分量.因此利用光流基本约束公式求解图像序列光流场是一个不适定问题,必须添加其他的约束条件才能求出光流矢量w=(u,v)T的唯一解.
1.3国内外研究发展与现状
1.3.1基于变分理论的光流计算方法
基于变分理论的光流计算方法自光流概念提出以来一直是光流计算研究领域的重点,图1-4展示了变分理论光流计算方法发展脉络,从图中可以看出,依据研究内容的不同,可将变分理论光流计算方法研究分为:针对光流计算图像预处理的研究、针对光流计算能量泛函的研究和针对光流计算优化策略的研究等三个研究方向.
1.3国内外研究发展与现状
图1-4变分理论的光流计算方法发展脉络图
1.针对光流计算图像预处理的研究
光流计算的基础是图像,因此图像质量的优劣是决定光流计算精度的一个重要因素.当图像中包含噪声、光照阴影和弱纹理等因素时,如何提高光流计算的精度是光流技术研究的重要内容.针对图像噪声导致输入图像数据可靠性较差问题,基于非线性滤波技术的图像预处理方法*先被应用于光流估计问题.针对光照阴影导致光流计算精度降低问题,基于结构-纹理分解的图像预处理模型被证明是解决该问题的有效方法,通过将原始图像分解为纹理图像可以较为准确地剔除图像中的阴影.针对图像弱纹理引起光流计算鲁棒性下降问题,通用的做法是使用人工纹理特征对图像进行预处理,以增强弱纹理区域图像数据的可靠性.
2.针对光流计算能量泛函的研究
仅依靠对图像进行预处理难以大幅提高光流计算的精度,因此,为了从本质上提高光流计算的精度,针对光流计算能量泛函的研究成为重点.光流计算能量泛函是光流计算数值化的基础,主要包括数据项和正则化项两部分.其中数据项主要由各种图像数据守恒假设构成,决定了光流计算的精度,正则化项主要由各种平滑策略构成,控制着光流的扩散强度和方向.针对基于图像灰度守恒假设的数据项不能有效应对光照变化的问题,通用的解决方法是在数据项中引入对光照变化鲁棒的图像高阶守恒假设.例如,图像梯度守恒假设、图像结构张量守恒假设以及Hessian矩阵守恒假设已成为数据项重要组成部分.虽然,高阶守恒假设能够增强数据项抗光照变化能力,但是其对图像噪声过于敏感.为了提高数据项的抗噪性,一种有效的方法是使用多重守恒假设构建数据项,例如,基于全局与局部守恒假设的CLG光流计算模型,在提高光流计算抗噪性的同时又能获得稠密的光流结果.结合双边滤波约束的数据项既能够提高模型抗噪性又能够较好地保持图像边缘.以上方法均使用灰度图像作为输入,而实际上彩色图像能够提供更加丰富的图像数据信息.因此,图像颜色守恒假设逐渐被用于构建光流计算能量泛函的数据项,该守恒假设的引入进一步使数据项的鲁棒性和准确性得到了提高.
在早期,Horn-Schunck为了解决光流扩散的问题,*先将空间一致性平滑策略引入光流计算能量泛函,然而该方法会造成图像边缘模糊和过度平滑的问题.为了在控制光流扩散的同时防止图像边缘过度平滑,基于图像驱动的平滑策略被提出用以保护图像边缘.所谓图像驱动就是利用图像扩散理论,通过建立一个基于图像数据的权重函数让光流扩散与图像数据建立联系,进而达到控制光流扩散强度的目的.目前常用的基于图像驱动的平滑策略是Nagel和Werlberger分别提出的基于图像梯度的自适应变化平滑策略和基于图像结构张量的各向异性平滑策略.然而,图像驱动的平滑策略往往会导致图像边缘呈现过度分割的现象.为了解决该问题,基于光流驱动的平滑策略逐渐被用以构建正则化项.光流驱动就是通过设计一个扩散关系模型,使扩散张量与光流矢量建立一种联系,进而控制光流在图像边缘的扩散强度.例如,Schnorr等人和Weicker等人分别提出的基于各向同性的光流驱动平滑策略和基于各向异性的光流驱动平滑策略,被证明可以有效防止图像边缘过度分割,两者区别仅在于后者考虑了方向信息.进一步地,研究人员将上述两类平滑策略的优点相结合,提出一种基于图像-光流联合驱动的正则化项模型,使得光流结果在充分展现运动细节的同时又能较为准确地贴合图像边缘.
由于传统能量泛函在复杂场景下常常无法满足高精度光流估计的需求,因此针对能量泛函附加约束项的研究成为光流计算研究的重点问题.针对大位移运动光流计算的鲁棒性和准确性问题,通过在光流计算能量泛函中引入图像匹配约束项可以有效地提髙大位移运动场景光流计算的性能.例如,Hornacek等人使用块匹配约束提高了大位移运动光流估计的精度.此外,通过在光流计算能量泛函中引入边缘感知约束项可以在一定程度上达到保护图像边缘的目的.图1-5以desert序列为例,展示了附加边缘感知约束项和未附加边缘感知约束项的光流估计效果.从图中可以看出附加边缘感知约束项的光流估计结果实现了*佳的图像边缘保护效果.
图1-5desert序列光流估计效果
3.针对光流计算优化策略的研究
随着图像获取设备技术的提高,由其获取的图像分辨率越来越高,图像计算难度也越来越大,因此针对光流计算优化策略的研究逐渐成为新的热点.为了解
展开