论文核心贡献是把三维场景认知(Thinking in 3D)引入图像识别,提出了一种数据与认知双向驱动的三维语义理解的理论框架,在似物性预测和多模态特征融合等核心问题上取得了关键性突破,并应用于自动驾驶场景的三维感知,具有重要理论意义和应用价值。本书适合计算机领域的科研人员和工程师阅读。
目录
第 1章绪论 .......................................................................................1
1.1研究背景与意义 ......................................................................1
1.1.1似物性预测与物体检测 .................................................3
1.1.2三维场景建模与三维物体表示 .......................................4
1.1.3特征学习与多模态特征融合 ...........................................5
1.2研究目标与主要贡献 ...............................................................6
1.3本书的组织结构 ......................................................................9
第 2章基于语义特征的图像似物性预测与三维物体检测 ...................... 11
2.1引言 ..................................................................................... 11
2.1.1背景知识与研究动机 ................................................... 11
2.1.2理论方法与创新点 ...................................................... 12
2.2相关工作 .............................................................................. 14
2.2.1基于底层特征的似物性预测 ......................................... 14
2.2.2基于图像的物体检测与姿态估计 .................................. 15
2.2.3图像语义特征提取 ...................................................... 16
2.3基于场景先验的三维区域选取 ................................................ 16
2.3.1三维场景物体空间估计 ............................................... 17
2.3.2三维物体区域选取策略 ............................................... 18
2.4基于语义特征的似物性预测 ................................................... 18
2.4.1基于语义特征的能量最小化模型 .................................. 18
2.4.2三维似物性区域的推理 ............................................... 21
2.4.3能量模型的参数学习 ................................................... 22
2.5基于多任务学习的三维物体检测网络 ...................................... 22
三维场景空间的似物性与多模态特征融合研究
2.5.1区域上下文信息融合 ................................................... 23
2.5.2多任务预测网络 ......................................................... 24
2.6实验分析 .............................................................................. 25
2.6.1数据集和评价指标 ...................................................... 25
2.6.2似物性区域的召回率 ................................................... 26
2.6.3物体检测与姿态估计 ................................................... 28
2.6.4语义特征分析 ............................................................. 31
2.7小结与讨论 ........................................................................... 34
第 3章基于场景空间认知的三维点云似物性预测 ................................ 37
3.1引言 ..................................................................................... 37
3.1.1背景知识与研究动机 ................................................... 37
3.1.2理论方法与创新点 ...................................................... 38
3.2相关工作 .............................................................................. 40
3.2.1三维场景点云表示 ...................................................... 40
3.2.2基于点云的三维物体检测 ............................................ 40
3.3基于场景空间认知的点云三维物体表示 ................................... 41
3.3.1三维点云的体素网格表示 ............................................ 41
3.3.2三维点云的似物性准则 ............................................... 42
3.4三维点云的似物性预测与物体检测 ......................................... 42
3.4.1基于三维点云特征的似物性建模 .................................. 43
3.4.2三维似物性区域的推理 ............................................... 44
3.4.3类别无关的似物性预测 ............................................... 45
3.4.4融合深度信息的双路检测网络 ..................................... 46
3.5实验分析 .............................................................................. 47
3.5.1似物性区域的召回率 ................................................... 47
3.5.2二维物体检测与姿态估计 ............................................ 51
3.5.3三维物体检测与定位 ................................................... 53
3.5.4立体视觉与激光雷达的对比 ......................................... 54
3.5.5模型分解实验 ............................................................. 56
3.6小结与讨论 ........................................................................... 58
目录 17
第 4章基于数据驱动的多视角三维特征学习 ....................................... 59
4.1引言 ..................................................................................... 59
4.1.1背景知识与研究动机 ................................................... 59
4.1.2理论方法与创新点 ...................................................... 60
4.2相关工作 .............................................................................. 62
4.2.1数据驱动的似物性预测 ............................................... 62
4.2.2多模态特征融合 ......................................................... 63
4.3三维点云的多视角表示方法 ................................................... 63
4.3.1点云的俯视图表示 ...................................................... 64
4.3.2点云的前视图表示 ...................................................... 64
4.4三维似物性预测网络 ............................................................. 65
4.4.1基于全卷积网络的似物性区域建模 ............................... 65
4.4.2似物性区域生成与似物性预测 ..................................... 66
4.5多视角区域特征融合网络 ....................................................... 67
4.5.1多视角感兴趣区域池化 ............................................... 67
4.5.2深度融合网络 ............................................................. 67
4.5.3三维区域回归与姿态估计 ............................................ 69
4.5.4随机训练与辅助监督 ................................................... 69
4.6实验与分析 ........................................................................... 70
4.6.1实现细节 ................................................................... 70
4.6.2三维物体检测性能 ...................................................... 72
4.6.3二维物体检测性能 ...................................................... 75
4.6.4特征融合方式对比 ...................................................... 76
4.7小结与讨论 ........................................................................... 77
第 5章应用:高效多任务场景语义理解 .............................................. 79
5.1引言 ..................................................................................... 79
5.1.1背景知识与研究动机 ................................................... 79
5.1.2方法概要与创新点 ...................................................... 80
5.2相关工作 .............................................................................. 81
5.2.1神经网络加速 ............................................................. 81
三维场景空间的似物性与多模态特征融合研究
5.2.2场景语义分割 ............................................................. 82
5.3高效基础网络 FastNet ............................................................ 82
5.3.1 FastNet网络结构 ....................................................... 83
5.3.2 ImageNet分类性能 .................................................... 86
5.4多任务统一网络模型 ............................................................. 88
5.5自动驾驶感知应用 ................................................................. 90
5.5.1道路障碍物检测 ......................................................... 90
5.5.2场景语义分割 ............................................................. 91
5.5.3实时多任务语义预测 ................................................... 92
5.6小结与讨论 ........................................................................... 93
第 6章总结与展望 ........................................................................... 97
6.1总结 ..................................................................................... 97
6.2展望 ..................................................................................... 99
参考文献 ........................................................................................... 101
在学期间发表的学术论文与研究成果 ................................................... 115
致谢 .................................................................................................. 117
温馨提示:请使用泸西县图书馆的读者帐号和密码进行登录