来源 |
知圈 | 进“滑板底盘群”请加微yanzhi-6,备注底盘
多模态交融是感知自动驾驶系统的一项根本任务,最近惹起了许多研讨人员的兴味。但是,由于原始数据噪声大、信息应用率低以及多模态传感器的无对准,到达相当好的性能并非易事。本文对现有的基于多模态自动驾驶感知任务办法实行了文献综述。剖析超越50篇论文,包括摄像头和激光雷达,试图处理目的检测和语义分割任务。与传统的交融模型分类办法不同,作者从交融阶段的角度,经过更合理的分类法将交融模型分为两大类,四小类。此外,研讨了当前的交融办法,就潜在的研讨时机展开讨论。
最近,用于自动驾驶感知任务的多模态交融办法开展疾速,其从跨模态特征表示和更牢靠的模态传感器,到更复杂、更稳健的多模态交融深度学习模型和技术。但是,只要少数文献综述集中在多模态交融办法自身的办法论上,大多数文献都遵照传统规则,将其分为前交融、深度(特征)交融和后交融三大类,重点关注深度学习模型中交融特征的阶段,无论是数据级、特征级还是提议级。首先,这种分类法没有明白定义每个级别的特征表示。其次,它标明,激光雷达和摄像头这两个分支在处置过程中一直是对称的,含糊了激光雷达分支中交融提议级特征和摄像头分支中交融数据级特征的状况。综上所述,传统的分类法可能是直观的,但关于总结最近呈现的越来越多的多模态交融办法来说却很落后,这使得研讨人员无法从系统的角度对其实行研讨和剖析。
如图是自动驾驶感知任务的表示图:
深度学习模型仅限于输入的表示。为了完成该模型,需求在数据输入模型之前,经过一个复杂的特征提取器对原始数据实行预处置。
至于图像分支,大多数现有办法坚持与下游模块输入的原始数据相同的格式。但是,激光雷达分支高度依赖于数据格式,这种格式强调不同的特性,并对下游模型设计产生宏大影响。因而,这里将其总结为基于点、基于体素和基于二维映射的点云数据格式,以顺应异构深度学习模型。
数据级交融或前交融办法,经过空间对齐直接交融不同形式的原始传感器数据。特征级交融或深度交融办法经过级联或元素相乘在特征空间中混合跨模态数据。目的级交融办法将各模态模型的预测结果分离起来,做出最终决策。