第一章 目标检测和识别方法概论
1.1 目标检测方法国内外研究现状
1.1.1 传统的目标检测方法研究现状
传统的目标检测方法首先需要人工选择特征,如Haar特征、局部二值模式(local binary pattern,LBP)、尺度不变特征变换(scale-invariant feature transform,SIFT)和方向梯度直方图(histogram of oriented gradient,HOG)及协方差矩阵(covariance matrix,CM)等;然后对目标进行分类,常用的分类器有自适应增强(adaptive boosting,AdaBoost)和支持向量机(support vector machine,SVM)等。
Haar特征*初由 Papageorgiou等(1998)提出,随后Viola和Jones(2001)提出利用积分图来提高Haar特征的运算速度的方法,并通过构建级联分类器,从而实现快速精确的人脸定位。之后,Lienhart和Maydt等(2002)在Haar特征库中加入旋转45°的矩形特征,用于扩展特征的多样性,进一步提高检测的精确度。LBP特征由Ojala等(2002)提出,用于提取图像的局部纹理特征。它具有旋转和灰度不变性,对于人脸检测简单且有效,其改进算法局部三值模式(local ternary pattern,LTP)、改进中心对称二值模式(improved center symmetric local binary pattern,ICS-LBP)等(Yeffet and Wolf,2009;Zheng et al.,2010)在行人检测中被广泛应用。SIFT特征由Lowe(2004)提出,SIFT特征是具有尺度不变性的局部特征描述算子,对光照、噪声等具有良好的鲁棒性,应用于基于特征点匹配的目标检测中,对于部分遮挡的目标物体也具有较好的检出率。由于SIFT特征良好的效果,派生出许多类似的特征算子,如FAST、BRISK、ORB和FREAK等(Trajkovic and Hedley,1998;Leutenegger et al.,2011;Rublee et al.,2011;Ortiz et al.,2012)。HOG特征由Dalal和Triggs(2005)提出,现被广泛应用于行人检测领域,该特征用于描述目标物体的边缘梯度信息,能够很好地表达目标物体的特征。CM描述子由Tuzel等(2006)提出,*先用于物体的识别和纹理分类。CM特征将区域内梯度的方向、强度、位置等有效信息之间的相关性,以编码的形式融入协方差矩阵中,因此适合具有复杂结构的目标的检测。Tuzel等(2008)指定对称正定的CM描述子对应的特征空间为黎曼流形(Riemannian manifold),并将黎曼流形映射到切平面上进行线性分类,此种方法可被应用于人体的检测,在法国国家信息与自动化研究所数据集(Laptev et al.,2008)上,比较之前的HOG方法,具有较低的漏检率。
综上所述,用于目标检测的单一的特征还有很多,但单一的特征并不能完全地表达出所检测目标的信息,许多研究者采用多种特征融合的方式,来提高目标检测的性能。Nanni和Lumini(2008)分别针对LBP特征、Gabor特征以及拉普拉斯特征图训练出不同分类器,进行决策级融合,提高了目标检测的检出率。Wojek等(2009)对HOG特征、Haar特征以及光流HOG特征进行特征级融合,获得了较高的检测效果。
AdaBoost分类器是传统的目标检测方法常用的分类器,由Schapire等(1998)提出,*初是基于Haar-like特征设计的,随后研究人员用AdaBoost结合其他特征,如APCF (associated pairing comparison features,联合块比较特征值提取)法、积分通道以及多特征等(Duan et al.,2009;Dollar et al.,2009;黄如锦 等,2010),取得更好的分类效果,如MPLBoost(Viola et al.,2005),DadaBoost(Gao et al.,2012)等。
SVM分类器是目前应用*广泛的分类器之一,由Cortes和Vapnik在1995年首次提出。它的优势在于可解决小样本、非线性、高维度的模式分类问题,和神经网络类似,都是学习性的机制。其不仅广泛应用于传统的目标检测方法,而且用于基于深度学习的目标检测中。其中具有代表性的是Felzenszwalb等(2010a)提出的基于HOG的变形组件模型 (deformable parts model,DPM)目标检测算法,利用SVM作为分类器,连续获得2007~ 2009年PASCAL VOC(Everingham,2006)目标检测竞赛第一名。
传统的目标检测方法都具有以下特点:①需要人工选择特征,其过程复杂,目标检测效果的优劣完全取决于研究人员的先验知识;②以窗口遍历图像的方式检测目标,在检测过程中有很多冗余窗口,时间复杂度高,并且对图像序列中尺度较小、遮挡较为严重、角度变化较大的目标检测效果欠佳;③时间复杂度较低,参数较少,因此在系统中消耗的内存较少,便于与深度学习的方法相结合,能高效地完成所需功能的程序的开发,如活体检测、降低参数维度和分类器级联等功能。
1.1.2 基于卷积神经网络的目标检测方法研究现状
近年来,深度学习在目标检测领域中取得巨大突破,成为目前较先进的方法,LeCun等(2014)提出第一个卷积神经网络(convolutional neural network,CNN)模型——LeNet-5 (2014),其参数共享机制解决了神经网络参数过多及训练不足问题。Hinton和Salakhutdinov (2006)在Science上率先提出深度学习的概念,2015年又在Nature上阐述了深度学习的前世今生(LeCun et al.,2015),引领了机器视觉、模式识别和人工智能等领域的发展(Silver et al.,2017;Athalye et al.,2018)。2012~2017年VGGNet(Simonyan and Zisserman,2015)、ResNet(He et al.,2016)、DenseNet(Huang G et al.,2017)等*具有代表性的基础网络相继出现,在ImageNet竞赛(Deng et al.,2009)中取得了极好的分类效果。
CNN在目标检测上的标志性成果是Girshick等在2015年提出的R-CNN(region-based CNN)网络,在VOC数据集上(Everingham et al.,2015)测试的平均精度是DPM算法的两倍。此后基于CNN的目标检测方法占有主导地位,主要分为两大类:①基于候选区域(region proposal,RP)的方法,代表作是SPP-net(He et al.,2015b)、Fast R-CNN(Girshick,2015)、Faster R-CNN(Ren et al.,2017)、R-FCN(Dai et al.,2016)和Mask R-CNN(He et al.,2017)等;②基于回归的方法,代表作是YOLO(you only look once)(Redmon et al.,2016)和SSD(single shot multibox detector)(Liu et al.,2016;Wong et al.,2018)等。
2015年He等提出的SPP-net网络利用空间金字塔的池化解决RP缩放的问题,且只需要一次特征提取过程,比R-CNN快24~102倍,但训练烦琐,且检测效果不好。2015年Girshick等提出的Fast R-CNN网络将多任务的损失函数联合在一起,提高了检测精度,检测速度比R-CNN快213倍,但这是一个不完全端对端的方法,仍不满足实时性。2017年Ren等提出的Faster R-CNN是完全端对端的训练,用RPN(region proposal network)网络结构代替了选择性搜索等方法,全卷积的RPN和Fast R-CNN网络交替训练,实现卷积特征共享,也使得两个网络快速收敛,具有更高的检测精度,在Tesla k40上的检测速度为5~17帧/s,缺点是全连接层的计算不共享,重复计算成本较高。2017年He提出的Mask R-CNN在Faster R-CNN的基础上增加了一个用于实例分割任务的Mask网络,集目标检测与分割为一体,多任务的损失函数使训练更加简单,且具有关键点检测功能,提高了检测的精度,但其速度还无法满足高性能实时性应用场合的需求。Redmon等(2016)提出使用YOLO网络同时进行分类和定位,在Titan X上可达45帧/s,但是对小、密集和形变较大的目标召回率较低,原因在于其没有选择RP的过程,是以牺牲精度来提升网络速度的。
Dai等(2016)提出的R-FCN网络解决了分类任务要求平移不变性和定位任务要求平移可变性的矛盾,用共享计算的全卷积取代了不共享计算的全连接层,提高了检测速度,是一个简单、精确、有效的目标检测的框架。Liu等(2016)提出的单阶段多框目标检测器(single shot multibox detector,SDD)网络是一个回归网络,用单一的网络进行多任务的预测,在Titan X上测试速度为59帧/s,并且结合在不同层次的卷积特征图,具有较高的检测精度。He等(2017)提出FPN算法,利用CNN的高低层特征图的语义关系,将特征图由底到顶和由顶到底加性结合,形成特征图金字塔,具有较高的分类精度。在2018年的CVPR(Computer Vision and Pattern Recognition,计算机视觉与模式识别)会议上,Zhang S等(2018)在SSD算法的基础上添加分割模块和全局激活模块提高了低层和高层卷积特征图的语义信息,兼顾了目标检测精度和速度。Redmon和Farhadi(2018)提出YOLOv3算法,在YOLO的基础上,利用三个不同层次的特征图,经过多次DBL模块后相级联得到三个尺度的预测层,再结合多尺度的候选区域框,不但增加了特征图的维度,加强了特征的语义信息,而且提高了对目标细节信息的表达能力,对于非显著目标具有较高的检测精度和速度。以上网络具有两个共同的优点:①利用多任务的损失函数形成端对端的网络结构,加快了训练时参数的学习速度,提高了测试的精度;②使用不同层次的卷积特征图用于提高检测精度。较浅的卷积层的感受野较小,学习局部区域的特征,具有丰富的空间信息,满足定位任务需要的平移可变性;较深的卷积层,其感受野较大,学习更加抽象的特征,具有充足的语义信息,对目标在图像中的位置具有鲁棒性,满足分类任务需要的平移不变性。以上两个优点对现实环境中小尺度、遮挡较为严重和角度变化较大的目标物体的检测具有较高的检测精度和速度。
在基于CNN的目标检测方法中,用于提取特征图的网络被称为基础网络(如VGG、ResNet等),而用于分类回归和边界框回归的结构被称为元结构(如Faster R-CNN、R-FCN、SSD等)。因此,不同的基础网络和元结构的组合具有不同的检测效果,Huang J等(2017)详细阐述了元结构的检测精度与速度之间折中的方法。Howard等(2017)提出的基础网络MobileNet以牺牲少量的分类精度换取大量的参数减少,其参数数量仅是VGG16的1/33,而且在ImageNet的分类正确率比VGG16高0.1%。为了兼顾检测速度和精度,若将MobileNet等参数少、层次深的基础网络与兼具分类平移不变性和定位平移可变性的元结构相结合,极有可能同时提高目标物体的检测速度和精度。
1.2 目标识别方法国内外研究现状
展开