来源 | CV研习社
导读:3D目标检测的主要应用场景就是自动驾驶,虽然现阶段基于点云的3D目标检测的方法的性能不断提升,但相比于激光雷达高昂的造价以及在复杂天气情况下的敏感性。研究人员将目光投向了基于视觉的方案,因此单目3D目标检测逐渐成为了研究热点。小编今天将为大家分享一篇名为Is Pseudo-Lidar needed for Monocular 3D Object detection的文章,文中提出了DD3D的方法,让我们一起来学习一下吧。
Part 01 3D目标检测应用背景
3D目标检测目前应用的主要场景就是自动驾驶,汽车在行驶过程中,需要时刻感知周围的环境,并及时获取障碍物的3维信息。3维信息的获取通常会依靠3D传感器,如激光雷达,双目相机等,但此类传感器成本通常较高。低成本的方案是通过单目相机结合深度估计的方式,目前该方案也在大力发展中。3D目标检测所使用的数据集大部分也就是自动驾驶数据集,类别主要是车辆和行人。通过3D目标检测算法,可以给出障碍物的3D bbox,可以精准的判断物体的位置和朝向,将该信息提供给规划模块,就可以对车辆的行驶路线进行合理的规划。
Part 02 3D目标检测方法分类
按输入数据类型来划分,可分为:
单模:Lidar or Camera
多模:Lidar + Camera
按特征提取的方式来分,可分为:
Point Cloud:直接使用原始点云信息进行特征的提取;
Voxel:将点云通过网格的方式进行划分,随后提取网格的特征信息
2D View:将3D的信息投影到2D平面中,通常采用鸟瞰图(BEV)的视角,随后使用成熟的2D卷积网络进行特征的提取;
Graph:利用图的方式,对半径R内的点建立图,随后进行特征提取;
Part 03 DD3D网络的提出
当前,基于单目图像做3D目标检测的一个主要方向是将单目深度估计整合进来预测三维点云,从而将相机转变为伪激光雷达传感器。而3D检测效果的好坏与否和深度估计网络的性能提升高度相关。同时此类方法大都是2阶段的网络,通常网络结构较为复杂且容易过拟合。本文提出了一种end-to-end、single-stage的单目3D目标检测网络DD3D(Dense Depth-pre-trained 3D Detector),网络结构图如下: