1024前的知识普及:“无图”方案实现

头像
朱文亮
2023-10-19 10:21

城市“无图”方案

城区NOA的“无图”方案并非不采用地图,而是指采用导航地图(SD map)或基于处于导航地图和高精度地图之间的地图形式(其在精度、 要素的丰富度上,要比导航地图更高,但弱于高精度地图, 在保留智能驾驶所必需的基础要素基础上,简化了不必要的元素)。 
“无图”解决方案能够进入实际应用环节中最重要的一个因素,在于现阶段单车强大的感知能力的提升。BEV鸟瞰图以及大模型Transformer的 应用可以将静态道路信息与动态道路参与方统一到了同一个坐标系下,通过实时感知与转换,在行驶中即可实时生成“活地图”,推动自动驾 驶中“感知-决策-规划”的任务进行。 


BEV 

BEV指的是鸟瞰图(Bird's-eye-view Perception),与此前基于2D直视图做目标 检测和深度估计不同,BEV通过将多个摄像头采集的数据,进行多帧时序前融合, 输出鸟瞰视角下动态目标物的4D信息(车辆速度/距离等)及静态目标物的3D信息 (车道线/路沿等),以此供给规划、控制等下游任务做参考。 


Transformer 

基于注意力机制的神经网络模型“Transformer” 抛弃传统CNN和RNN建模路线, 能抽象地理解图像不同区域语义元素之间的关系。Transformer通过图片像素之间关;系,在空间-时序维度上进行建模。因此,Transformer 可以从不同视角的摄像头中 提取特征信息,根据对像素位置关系的理解,完成BEV图像拼接,形成全面场景认知。 卖点”。


BEV与Transformer的结合

两者结合应用,极大提升了车端的感知能力,而单车感知能力的提升,相对弱化了智驾系统对高精地图的依赖。
这背后的逻辑分为三点:
 1)BEV技术已经日渐成熟,从预研阶段基本走到了量产落地阶段;
2)高速NOA走向城区NOA,在更加复杂的智驾场景下,BEV所带来的优势能更好地得到体现。
 3)在智能驾驶商业化进展不及预期的大背景下,BEV也可以作为相关企业难得的“技术 卖点”。


小结

尽管各家研发进度和细节略有不同,但BEV+Transformer方案的整体思路基本一致:“输入-提取-转换-融合- 时序-输出”,并在这个过程中完成“2D到3D到4D”的转换。
输入:将多个摄像头数据输入到共享的骨干网络(Backbone)
提取:骨干网络提取摄像头数据中的特征(feature)
转换:所有源于摄像头数据的特征转换到BEV空间中(2D->3D)
融合:图像数据特征与其他传感器数据特征融合
时序:增加时序信息,形成具有时空连续性的感知信息(3D->4D)
输出:输出感知结果,包括静态语义地图、动态目标检测以及运动预测等,用于决策规控 

最新评论
暂无评论