第1章人体目标跟踪算法研究
本章主要分为三部分:首先阐述人体目标跟踪算法研究的背景和意义;然后横向和纵向介绍这一课题的研究现状及其在生理机能中的应用。
1.1研究背景和意义
视觉是人类感知外部世界信息的大门,相比于触觉、听觉、味觉等感官系统,视觉就是信息感知的八车道高速路,而剩下的感官系统只是羊肠小道,故视觉信息理解机制未能理清的话,整个人工智能系统只能是一个空架子,就只能进行简单的逻辑符号推理、语言文本处理,无法在现实环境中工作运行。计算机视觉就相当于人工智能的芝麻开门,没有打开这个大门,我们就没法研究出工作在现实世界的人工智能系统及创造出令人振奋的服务于人类的产品。计算机视觉研究理论的基本框架是由DavidMarr等W在20世纪70年代的《视觉计算理论》一书中提出,主要把计算机视觉研究分成三个层次:视觉信息表征、处理信息算法和硬件实现。
早期由于计算机内存、硬件速度和采集到的数据量少等的限制,计算机视觉研究只能进行特征点的提取、点特征的相互关系射影及几何对应关系的研究,仅对一些几何线条进行形状纹理的分析处理。随着硬件设备存储能力的不断提升,计算机计算速度的不断加快,视觉相关的图像及海量视频数据的获取更加容易,算法的研究快速发展,计算机视觉进入真实环境发挥作用成为可能。
在计算机视觉的研究中,图像分类、目标检测的进展推动着视频信号研究领域的发展。在视频信号的研究中,视频序列单目标跟踪作为计算机视觉领域的基石问题之一。单目标跟踪是利用初始给定帧的先验信息,借助视频序列中时间序列的信息及图像内容的空间结构位置信息,对后续视频序列中目标位置、尺度、运动的速度及加速度等运动状态进行估计,为图像及视频更高级的计算机视觉语义任务分析提供确定的目标信息,所以目标跟踪在整个计算机视觉的研究过程中起着承上启下的作用。目标跟踪融合了统计学习、模式识别等理论知识,不仅有着重要的理论研究价值,还在现实环境中有着重要的应用前景和商业价值。例如目标跟踪对视频动作识别、视频序列的更高层次的语义分析理解起着承接的作用,在视频监控、视觉人机交互、导弹跟踪定位、智能交通、无人机飞行侦查、三维重建、视觉智能导航等领域有着广泛的应用。
(1)视觉智能导航。计算机视觉中视频信号处理算法的发展、摄像机硬件设备及软件开发的快速发展,使得基于视觉智能导航技术的广泛应用成为可能,例如智能行李箱、物流机器人、无人驾驶车及无人机摄影等。智能视觉导航系统利用摄像头结合其他传感器对机器所处的环境或者物体进行感知、定位跟踪和分析理解,使得机器能够在特定的环境下安全运转,完成作业。同时智能视觉导航系统在跟踪物体做快速运转中,如何进一步分析周围环境的关键在于能够检测到指定的目标并进行精确定位跟踪及导航。
(2)基于视觉的人机交互1计算机作为现代人类文明不可或缺的工具,现在人和计算机交互仍然以传统的键盘、鼠标等方式为主,这样的交互是间接、低效率的。计算机视觉领域的蓬勃发展,发展出了全新的人与计算机的交互方式,让智能化的人机交互成为可能。与传统的鼠标、遥控器、键盘等计算机被动地接受精确的输入方式相比,视觉人机交互建立在机器通过摄像头或者其他传感器对采集到的信息进行分析处理的基础上,从而实现机器主动解读人的姿态、手势语言等传达的视觉信息。这种交互更接近人类之间的交流沟通方式,能够提供全新的交互体验,使交互更自然高效,从而使人类更容易指挥机器。这一人机交互系统主要包括以下实现过程:目标的检测、目标提取、目标识别、目标跟踪和目标分析、理解与信息交互反馈。对人类目标的诸如面部表情、手势识别、人体姿态等高级视觉语义的分析,必须建立在对人体的面部、手脚精确无误的定位与跟踪上,才能进一步完成对视觉信息更高层次的解读,如现在微软开发基于人体跟踪的Kinect人机交互系统。所以,目标跟踪是基于视觉人机交互的一个承上启下的模块,有广阔的运用前景。
(3)智能视频监控智能视频监控M、安防摄像头硬件技术及互联网技术的快速发展,让我们更容易获得海量图像视频数据。视频监控也成为目标跟踪*具潜力和商业价值的应用领域。智能视频监控是指通过摄像头对特定的区域进行图像视频信号的采集,采用智能算法对视频中的特定目标进行行为或运动轨迹的分析,取代以往一帧一帧的人工目视检测,实现对特定区域内可疑或者危险事件的检测、排除和预防警报。随着计算机视觉研究的快速发展,智能视频监控系统已经渗入人们生活的方方面面,对特定的场合,例如高速公路、运动广场、机场、银行、住宅区、车站等,进行实时的监控和预防报警。计算机视觉算法对视频内容分析和理解,对监控区域进行自动化的管理,可以*大限度地减少人工的介入,提高监控安全系数,降低人工成本。智能视频监控系统的关键环节是视觉目标的精确定位跟踪,其具有广阔的应用前景和巨大商业价值。
(4)现代化军事。长期以来,目标跟踪领域都是现代化军事技术研究的热门领域,目标跟踪领域的长足发展推动了军事现代化的进程,现代化军事场景运用又不断地推动跟踪研究的发展。目标跟踪主要在飞行控制、精确制导、区域检测、靶场测量和预防警报等方面发挥作用。在实际运用中,视觉目标跟踪技术主要结合光学传感器、雷达和激光等相互融合以达到更好的处理效果。基于多种传感器采集信息的相互融合的跟踪技术也是未来重要的研究方向。不管是采用光学传感器还是其他传感器采集的信息,目标跟踪研究的理论都万变不离其宗。本书主要研究光学传感器采集到的视觉信号。
(5)智能交通系统目标跟踪的另一个重要应用领域是智能交通系统。随着城市化建设的快速发展,机动车辆日益增多,车流量逐年增大,城市交通拥堵、高速路堵车等问题的凸显,使得智能交通系统成为保卫城市交通顺畅不可或缺的一部分。智能交通系统的实时运行——采用计算机视觉的目标跟踪技术可以对交通工具进行统计,轨迹分析,对交通异常的情况进行判断和预处理及事故后及时报警。而高速公路及城市道路上塞车的主要原因为发生交通事故后未能及时发现及处理。智能交通系统确保事故前做好预警,事故后早发现、及时处理,避免发生事故后过长时间才发现处理,造成道路拥塞、堵车。实现这些智能交通系统的功能,目标跟踪的精确定位跟踪及分析是关键。
(6)三维重建基于连续视频序列的三维重建一直是研究热门,如城市模型的建立、人体或动物的三维世界的运动和重建等,是数字城市、室内导航、人机交互、计算机动画等应用领域的关键技术。三维重建主要包括下列步骤:图像采集、摄像机坐标标定、特征生成、三维匹配以及深度信息还原。计算机视觉跟踪技术能够计算出摄像机和指定目标关键部位的运动参数信息。这些参数为三维重建提供了不可少的支持。
以上只是列举了跟踪领域几个具体的应用,这些技术的实现离不开目标跟踪理论的探索研究。在计算机视觉领域中,目标跟踪承接特征提取、图像分类、目标检测与定位的研究,又为更高级的图像视频智能语义分析与理解提供必要的技术支持。随着计算机硬件及算法的快速发展,目标跟踪将渗入人们生活的方方面面,给人们的生活生产带来更大的变化。下一节,我们将从跟踪器的分类的角度来展开叙述。
1.2人体目标跟踪算法的研究现状
1.1节介绍了目标跟踪的运用价值,本节将从纵向和横向展开阐述,纵向指的是一个跟踪算法的组成部分,而横向指的是不同类别的跟踪器。
1.2.1人体目标跟踪的重要组成部分
目标跟踪算法从纵向来看,主要分为运动模型、特征提取、观察模型、模型更新器、集成处理器五个模块,如图1-1所示。
1.2.1.1运动模型
运动模型(Motion Model),根据前一帧的估计,运动模型为目标生成一组候选区域或边界框,在候选帧中确定目标。运动模型主要建立整个视频序列中跟踪目标运动状态之间的前后帧的关系,直接或间接地在候选帧中预测目标。常见的运动模型有粒子滤波器(Particle Filtering)、卡尔曼滤波器(Kalman Filtering),径向滑动窗口等。粒子滤波器是一种顺序贝叶斯估计方法,递归地推断目标的隐藏状态。滑动窗口是一种详尽的遍历所有候选目标的搜索方案,它简单粗暴地遍历了长方形邻域内的所有可能候选者,计算量比较大。径向滑动窗口是对滑动窗口的改进,考虑了候选区域是圆形的情况。粒子滤波器和滑动窗口滤波器的主要区别有两个方面。首先,粒子滤波器可以保留每一帧的概率估计。因此,当前帧中有多个候选目标有较大可能性是目标时,它们都会被保存到下一帧。所以当目标跟丢时,比较容易把目标找回来。与此相反,滑动窗口的办法只选择概率*高的候选框,不保存概率较低的目标。其次,粒子滤波器也容易处理尺度的变化、长宽比的变化甚至旋转和倾斜等变化。而滑动窗口的方法需要穷举搜索导致大量计算,计算量大成为滑动窗口的一大短板。
1.2.1.2特征提取
特征提取(Feature Extractor)作为目标跟踪的一个重要环节,它的质量影响着跟踪器的*终性能。传统的特征提取主要包括灰度特征、纹理特征、尺度不变特征、超像素特征、原始灰度图特征、Haar-like矩形特征。原始灰度图特征,它将图像调整为固定大小,再转换为灰度图,然后将像素值作为特征。H0G(方向梯度直方图)结合原始彩色图特征,顾名思义就是HOG特征融合了原始彩色图特征。但现在主流的跟踪算法都是基于卷积神经网络特征,因此,本书主要对卷积神经网络特征提取进行改进。通常,我们把跟踪系统建模成一个二分类问题,在卷积神经网络提取特征时,大多采用小型的网络,如VGG-M跟踪器只获取视频序列的第一帧信息,获得目标先验知识有限,故采用线下预训练和在线的微调处理,能够提取更有效的先验信息。
1.2.1.3观察模型
观察模型(ObservationModel):观察模型是一种概率计算方法的表达方式,对当前帧候选区域做出置信度判断,并计算出候选框为所标记目标的概率,通常认为观察模型是跟踪系统的关键部分。对图像提取视觉特征,将特征输入观察模型,根据*终结果确定目标的精确位置。跟踪的几个模块中,观察模型的鲁棒性是算法成功的关键。目前,大多跟踪器以判别性跟踪器为主。跟踪器的观察模型有逻辑回归、岭回归、支持向量机、结构化输出支持向量机。二项式的逻辑回归模型是一种分类模型,对正负样本做出概率的判断,采用二范数正则化,在线更新参数的策略是梯度下降。岭回归,简单讲就是带二范数惩罚项的*小二乘回归。正样本标签为1,负样本标签为0。通过聚合足够多的数据来在线更新,这是一种在线词典学习策略。支持向量机采用Hinge损失函数和二范数正则化,并采用*大间隔化学习策略。
1.2.1.4模型更新器
模型更新器(Model Updater):模型更新器决定着更新观察模型的策略和频率。由于观察模型更新后参数的更新,因此模型更新器通常指何时进行模型更新及固定的更新频率。它可以实时地对目标和背景刻画进行更新。跟踪器必须适应跟踪期间收集到的但有可能带有噪声的候选框,并且和目标背景偏移之间保持平衡。通常模型更新器有在线分类器、增量子空间学习算法和模板实时变化更新等。模型更新器既能保证准确地描述目标及背景的外观更新,又不会使模型描述目标的能力变差,这也是计算机视觉目标跟踪的一大关键。当模型需要更新时,我们通常收集与目标重叠率大于等于0.7的候选框作为正样本,而重叠率小于0.3的作为负样本。通常采用两种更新策略,第一种是在目标的置信度低于阈值时更新模型。这样做可确保目标始终具有高可信度。这是我们的基本模型中使用的默认更新程序。第二种是每当目标的置信度与背景示例的置信度之间的差异低于阈值时更新模型。这种策略只是在正样本和负样本之间保持足够大的差距,而不是仅仅保持目标具有高置信度。当目标被遮挡或消失时,它可能会有比较好的效果。不同的阈值对跟踪器的*终效果影响比较大。模型更新器的研究工作大多集中在生成模型中。
1.2.1.5集成处理器
集成处理器(Ensemble
展开