AI应用大咖说：多相机的时空融合模型架构算法优化

• 2022年12月23日上午11:56 • 发现 • 阅读 128

北京2022年12月23日 /美通社/ -- 随着人工智能技术的广泛应用，智能驾驶系统正在成为汽车的标配。而作为识别周边环境的“火眼金睛”，“感知”模块是智能驾驶系统安全、高效运行的核心，而视觉感知更是其中无比重要的一环。浪潮信息AI团队长期关注AI算法在自动驾驶中的应用，并致力于用软硬件的算法和技术创新推动行业的进步，做出创新性的成绩。最近，浪潮信息在自动驾驶感知权威数据集 NuScenes 评测中，自研算法 DABNet4D 获得 0. 624 的NDS精度，位列Camera-only榜单第一名。

近日，浪潮信息人工智能与高性能应用软件部自动驾驶AI研究员赵云博士，在题为《探索自动驾驶纯视觉感知精度新突破 -- 多相机的时空融合模型架构算法优化》的自动驾驶线上研讨会上，向我们揭开了这一自动驾驶感知算法的神秘面纱。

多相机多任务融合模型优势

自动驾驶汽车完成自动驾驶出行任务，离不开感知、决策、控制三大要素。其中感知系统是车辆和环境交互的纽带，相当于无人汽车的眼睛。根据所用的传感器以及传感器数量和种类等，自动驾驶感知算法可以简单的分为单传感器（单任务和多任务）模型、（同类和不同类）传感器融合模型等四类，并各有其优缺点。

自动驾驶感知的关键是3D目标检测任务，又分为基于相机、Lidar的3D目标检测，以及相机、Lidar、Radar融合等技术。尽管目前对于3D目标检测已经有不少的研究，但是在实际应用中仍然有许多的问题，其难点主要在于：

遮挡，遮挡分为两种情况，目标物体相互遮挡和目标物体被背景遮挡截断，部分物体被图片截断，在图片中只能显示部分物体小目标，相对输入图片大小，目标物体所占像素点极少缺失深度信息，2D图片相对于激光数据存在信息稠密、成本低的优势，但是也存在缺失深度信息的缺点现有方式大都依赖于物体表面纹理或结构特征，容易造成混淆。

目前，基于相机的方法与基于Lidar的方法准确度差距正在缩小，而随着Lidar成本降低，融合技术在成本和准确度的平衡上存在优势。

基于多相机多任务融合模型的3D目标检测技术正是在成本优势与日益增长的准确度两相促进下得到越来越多的认可。目前，多相机多任务融合模型主要遵循特征提取、特征编码、统一BEV、特征解码和检测头五大部分。

其中，统一BEV 就是鸟瞰图，亦即将图像特征统一投射到BEV视角下，用以表示车周围环境。“统一BEV”的工作可以分为两大类，一种基于几何视觉的变换，也就是基于相机的物理原理，优势在于模型确定，难度在深度估计；另一种是基于神经网络的变换。

浪潮DABNet4D算法三大创新突破

据赵云介绍，浪潮DABNet4D算法遵循上述框架，采用基于几何视觉的变换方法，设计了端到端的模块化整体架构，通过将环视图检测统一到BEV空间，为后续的工作提供了很好的模板。

DABNet4D模型被划分为四个部分，Image-view Encoder，View-transformer，BEV-Encoder，Detection Head。其中Image-view Encoder为图像编码模块将原始图像转换为高层特征表示。 View-Transformer模块负责将图像特征转换到BEV坐标中，主要包括三个模块：深度预测模块、特征转换模块和多帧特征融合模块。BEV-Encoder & Heads主要是对融合BEV特征进行编码；Heads用来完成最终的3D目标检测任务。

创新突破一数据样本增强

为平衡不同种类的样本数量，浪潮信息AI团队创新研发了基于3D的图像贴图技术。主要是通过从整个训练数据集中根据每个样本的3D真值标签，提取样本数据构建样本数据库。训练过程中，通过在样本数据库中采样获取备选样本集合，按照真值深度值从远至近贴图，并将对应的Lidar数据进行粘贴。

创新突破二深度信息优化

基于图像的3D目标检测，由于摄像头拍摄的照片和视频是将原有3D空间直接投射至2D平面中，所以会丢失深度信息，由此所面临的核心问题为如何精确地估计图像中物体的深度。针对此问题，浪潮信息AI团队进行了两方面的改进工作：一是建立更复杂的深度估计网络，通过设计更深、更多参数的深度神经网络，以增大深度估计网络的预测能力和感受野；二是采用两层级联深度估计网络结构，第一层估计网络估计的深度作为特征，输入到第二层级联网络中。除了进行网络创新设计优化，在训练阶段也采用深度监督、深度补全、损失函数等优化方法。

创新突破三四维时空融合

对于自动驾驶车辆而言，它所处的环境更像是一个动态变化的三维空间。为进一步引入车辆所处的动态中的历史，通过引入时间信息进行时序融合，提升velocity预测的精度，实现对暂时被遮挡的物体更好的跟踪效果。对此，浪潮信息AI团队做了以下几点创新：1、更精细的时空对齐操作，使前后帧特征结合的更精确。根据不同时刻车辆的位姿以及车辆、相机、Lidar坐标系的转换关系，获取不同时刻相机与指定Lidar的坐标系的转换关系，进一步减少由于采集车辆自身运动对多帧BEV特征对齐带来的影响；2、从sweep数据帧随机选取作为前一帧与当前帧进行匹配，大幅地增强数据的多样性；3、不同时序帧同步进行数据样本贴图增强，使得速度、转向等预测更精准。

致胜NuScenes自动驾驶评测

本次浪潮DABNet4D算法所登顶的自动驾驶NuScenes榜单，其数据集包含波士顿和新加坡两大城市收集的大约15小时的驾驶数据，覆盖了城市、住宅区、郊区、工业区各个场景，也涵盖了白天、黑夜、晴天、雨天、多云等不同时段不同天气状况。数据采集传感器包括了6个相机、1个激光雷达、5个毫米波雷达、以及GPS和IMU，具备360°的视野感知能力。

NuScenes数据集提供二维、三维物体标注、点云分割、高精地图等丰富的标注信息。目前，基于NuScenes数据集的评测任务主要包括3D目标检测（3D object Detection）、3D目标跟踪（3D object Tracking）、预测轨迹（prediction trajectories）、激光雷达分割(Lidar Segmentation)、全景分割和跟踪（lidar Panoptic segmentation and tracking）。其中3D目标检测任务备受研究者关注，自从NuScenes挑战赛公开以来至今，已提交220余次结果。

浪潮DABNet4D算法在训练与评测过程中使用的底层硬件支撑是浪潮NF5488A5 AI服务器。开发过程中，模型在训练集上进行单次训练运行 20 个 epochs（without CBGS），需要耗费约360 个 GPU 小时。

而为了满足此类算法超高的AI算力需求，浪潮信息提供集群解决方案，采用 Spine-Leaf 的结构进行节点扩展，集成超 2000 GPU 卡集群，达到 90% 的扩展性。同时，该评测也是在 AIStation 的平台基础上进行开发，有效加速了浪潮DABNet4D算法的开发与训练。

自动驾驶技术发展撬动AI算力需求爆发

自动驾驶技术感知路线之争一直是行业关注的焦点，虽然特斯拉纯视觉方案在业内独领风骚，但多传感融合方案被业内视为实现自动驾驶安全冗余的关键手段。

为了更好的衡量3D检测效果，其评价指标已经从原来的2D的AP已经逐渐变为AP-3D和AP-BEV。在数据集的选择上也从KITTI逐渐变为更大和更多样的NuScenes数据集。

未来，基于LiDAR、相机等多源感知融合算法将有力地提升模型的检测精度，同时，Occupancy network、Nerf等先进算法模型也会逐步应用于自动驾驶感知模型的开发与训练中。

自动驾驶数据量急剧增大、自动驾驶感知模型复杂度逐步提升，以及模型更新频率逐渐加快，都将推动自动驾驶的蓬勃发展，也必然带来更大的模型训练算力需求。

【更多研讨会精彩瞬间，请访问“视频号-浪潮数据中心业务-12月9日直播回放】

原创文章，作者：，如若转载，请注明出处：https://knewsmart.com/archives/99974

0 0 打赏

微信扫一扫

关于作者

0 文章

0 评论

粉丝

特斯拉计划在第一季度裁员，并将冻结招聘

上一篇 2022年12月23日上午11:56

戴森以发明家精神重新定义“创新”

下一篇 2022年12月23日上午11:56

发现

第三代元PLUS 11.99万元起正式上市全系搭载第二代刀片电池及闪充技术

5月21日，比亚迪第三代元PLUS正式上市，官方指导价11.99万-14.99万。新车定位元力智趣闪充SUV，凭借全能产品力契合元气青年、年轻家庭与科技实用派的多元出行需求，以全球车品质与年轻姿态解锁高品质纯电出…

新智派
2026年5月21日
8.6K
发现

人均16本？2026全国职场人阅读调查来了！

本雅明在一百年前写下过一个诊断：我们生活在一个体验超载的时代，但内心却感到贫乏，似乎没什么能真正沉淀下来。他把那种可传承、能生根的深厚经验称为“Erfahrung”，而把那些孤立的、转瞬即逝的刺激称为“Erlebnis…

新智派
2026年4月27日
14.7K
发现

田涛对话马拉比：在AI浪潮中破解“上帝密码”与人类命运

一壶武夷岩茶，升腾起连接东西方的氤氲热气。近日，《哈萨比斯：谷歌AI之脑》作者塞巴斯蒂安·马拉比，与华为管理顾问田涛展开了一场深度对话，整整2个小时，围绕人类“重构巴别塔”的雄心与野心，两位观察家在茶香中…

新智派
2026年4月20日
11.4K
发现

为什么我们还要读书？世界总有答案

OpenClaw能打开浏览器、查资料、写邮件、填表格——像一个不睡觉的实习生。 Gemini CLI能一口气吞下整个代码库，三秒钟给你一份精准的优化建议。 MGIE动动嘴就能修图，连软件都不用打开。 2026年，这些AI智能体不再是…

新智派
2026年4月20日
8.0K
发现

博世舒适科技日立冷热科技亮相中国制冷展，以绿色与智能引领行业升级

北京2026年4月17日 /美通社/ -- 在2026中国制冷展期间，博世舒适科技集团日立冷热科技集中展示了覆盖压缩机、空调系统及大型机组在内的全系列产品与解决方案。围绕绿色低碳与智能化发展趋势，公司正加快由单一设备…

新智派
2026年4月17日
3.7K
新智•新速•新未来｜OCS 2.0-SPE工业控制系统新品发布暨OCS@NIICA生态合作伙伴签约仪式圆满举行

北京2026年4月17日 /美通社/ -- 2026年4月16日，"OCS 2.0-SPE工业控制系统新品发布暨OCS@NIICA生态合作伙伴签约仪式"圆满举行。本次会议汇聚行业认证机构、核心技术伙伴及生态厂商，共同见证新一代工业控制技术的诞…

新智派
发现 2026年4月17日
6.0K
以责任赋能发展以初心传递温度 -- 中通快递正式发布 2025 年度可持续发展报告

上海2026年4月17日 /美通社/ -- 2026年4月17日，中国行业领先且快速成长的快递公司中通快递（开曼）有限公司（纽交所代码：ZTO及香港联交所代号：2057）（"中通"或"公司"）正式发布了2025年度可持续发展报告。这是…

新智派
发现 2026年4月17日
11.2K
水隐之触悦然心生 GROHE SPA水悦淋浴系统耀世登场

设计美学：采用高特朗水悦恒温控制面板，内嵌式按钮设计让科技隐于无形。核心技术：模块化创新设计搭配SmartControl控温技术，一键精准调控个性化组合。感官体验：宽大的顶洒与情绪调频式手持花洒结合，打造沉浸…

新智派
发现 2026年4月17日
3.5K
雅诗兰黛集团连续第六年参展中国国际消费品博览会，彰显深耕海南的长期承诺

海口2026年4月17日 /美通社/ -- 作为世界领先的优质护肤品、彩妆、香水和护发产品的制造商与营销商，雅诗兰黛集团连续第六年亮相中国国际消费品博览会（以下简称"消博会"）。围绕"重塑美妆新境，焕启致美之旅"的主…

新智派
发现 2026年4月17日
3.8K
发现

毛源昌眼镜亮相消博会，向世界讲述中华老字号新故事

杭州2026年4月17日 /美通社/ -- 4月13日-18日，第六届中国国际消费品博览会在海南海口举行。毛源昌眼镜作为商务部首批认定的"中华老字号"受邀参展，在老字号"镇店之宝"专题展示区，向全球客商呈现百年品牌的文化底…

新智派
2026年4月17日
3.2K

发表回复

登录后才能评论

AI应用大咖说：多相机的时空融合模型架构算法优化

关于作者

相关推荐

发表回复