华为、特斯拉带头，车企卷入「大模型」军备竞赛

• 2023年6月16日上午10:57 • 发现 • 阅读 252

自动驾驶的进程，因为大模型又起波澜。

近几年，自动驾驶近年发展迅猛，硬件预埋软件持续迭代的风潮下，车载算力急剧增长快速普及，但软件端功能进化滞后于算力。人们似乎开始接受要经过很长时间才能发展到自动驾驶。

但 ChatGPT 的出现带给自动驾驶行业很大启示。

ChatGPT 作为大语言模型的代表，通过对海量多模态数据的大规模自监督学习，借助「预训练+微调」的方式，让 AI 可以完成各种复杂自然语言任务，甚至通过了图灵测试——自动驾驶，被认为是下一个可能实现突破的领域。

北京智源人工智能研究院院长黄铁军甚至预测，三年之内可以实现高级别自动驾驶。

目前，在产业界很多公司都在「大模型上车」上进行探索。一部分自建大模型，商汤发布的日日新大模型，毫末智行发布了自动驾驶生成式大模型 DriveGPT——雪湖·海若；另一部分公司走联合路线，比如小鹏汽车联合阿里的大模型建立自动驾驶智算中心、斑马智行接入阿里大模型等。

「大模型上车」目前重点进展：

数据标注——特斯拉等公司，通过大模型优化数据标注，降低了人工标注比例和成本；

仿真优化——提升虚拟训练环境的真实性，优化虚拟训练数据；

优化感知——利用大模型能力，优化多个环节的小模型，提高感知效果；

端到端——利用生成式预训练大模型技术，让自动驾驶模拟类似人脑驾驶的能力。

大模型会如何影响智能驾驶？现在有哪些公司和团队，已经开始实践「大模型上车」了？它真的能让无人驾驶更快到来吗？

小模型 VS 大模型

智能驾驶行业，经历了一个模型「从小到大」的过程。

目前已量产的智能驾驶，绝大多数采用的是模块化架构。简而言之，模块化是将智能驾驶系统拆分为多个典型任务，并由专门的 AI 模型或模块处理。

现阶段的自动驾驶模型框架主要由感知、规划决策和执行三个部分组成。感知模块就像是人的眼睛和耳朵，负责对外部环境进行感知；控制模块就像人的双手和双脚，负责最终的加减速、转向等操作；而决策规划模块就像人的大脑，基于接收到的感知等信息进行行为决策和轨迹生成。

在此架构下，每个大模块可能包含多个小模型的组合。如感知模块可能包含分类、追踪和定位等不同 AI 模型，各司其职。

不过，随着软硬件升级与逐步深入，自动驾驶对于计算能力和海量数据处理能力的需求暴增，传统各个小模型「堆叠」的方案，已经无法满足城市自动驾驶的需求。比如，「堆叠」造成信息失真以及算力浪费，而每个小模型的技术「天花板」也会导致整体解决方案受限。

举个简单例子，小模型就像一个小孩，他非常擅长看图和听故事，可以快速地找到图片中的物品或者听懂一段故事的意思。但是，如果这个故事太长或者太复杂，他可能就会听不懂或者忘记了。

特斯拉自动驾驶技术架构 | 特斯拉

这个时候，大模型开始进入业界视野。

2021 年 8 月，特斯拉的 AI 高级总监 Andrej Karpathy，在特斯拉 AI DAY 上展示了一项新技术——基于 Transformer 的 BEV(鸟瞰视角) 感知方案。相当于车辆正上方 10-20 米有一个直升机俯视车辆与周围环境，这是大模型技术首次应用于自动驾驶领域，也是特斯拉实现纯视觉智能驾驶方案的关键。

华为、百度 Apollo、蔚小理、毫末智行、商汤等一众厂商，甚至像地平线这样的芯片公司，也都在 BEV+Transformer 上有所布局。例如华为的 ADS 1.0，据称已实现基于 Transformer 的 BEV 架构，而最新发布的 ADS 2.0 进一步升级了 GOD 网络，类似于特斯拉的占用网络算法。

而大模型则可以比喻成一个大人，他非常聪明，可以同时处理许多信息，包括看图片、听故事和听音乐等。他可以处理很长的故事或音乐，同时处理多个任务。不过，他需要更多时间和精力学习和处理这些信息。

值得注意的是，Transformer 不等于大模型。它是模型的底座，大模型的架构可以基于 Transformer。

大模型时代的数据和算法

在特斯拉使用 Transformer 之后，大模型早已经不限于智能驾驶感知领域。

目前，智能驾驶已从仅使用模型进行图像感知，使用规则算法的方式，转变为感知、融合、预测全面使用模型。

其中，这是大模型在智能驾驶领域最先落地的几个场景。

数据标注

自动标注是大模型最直接的应用之一，可以大大降低数据标注成本。海量高效的数据标注是算法模型的基础。随着智能驾驶的发展，激光雷达 3D 点云信息和摄像头采集的 2D 图像信息增加，道路场景更丰富，自动驾驶的数据标注类型和数量不断增加。

然而，数据挖掘难度大，数据标注成本高。所以，智能驾驶厂商通过自动标注优化系统效率。例如，特斯拉从 2018 年以来不断发展自动标注技术，从 2D 人工标注转为 4D 空间自动标注。随着自动标注技术的成熟，特斯拉的人工标注团队规模不断缩小。2021 年该团队超过 1000 人，2022 年裁员超过 200 人。

毫末智行发布的自动驾驶生成式大模型 DriveGPT——雪湖·海若 | 毫末智行

小鹏汽车和毫末智行也相继推出自动标注工具。据毫末智行 CEO 顾维灏表示，目前获取车道线、交通参与者和红绿灯信息，人工标注成本约每张图 5 元，而毫末 DriveGPT 的成本仅 0.5 元。

优化仿真

除此之外，自动驾驶需要大量的数据支持，数据积累将长期内是自动驾驶的核心竞争点。目前，数据来源主要有真实数据、虚拟仿真和影子模式。

除真实数据外，仿真场景是弥补训练大模型数据不足的重要方式。虚拟仿真通过 AI 生成道路场景、车辆和行人等信息，对模型进行训练。可用于对行车采集的 corner case 进行反复模拟和训练，弥补现实场景采集信息不足的问题。

目前仿真场景主要由游戏引擎生成，基于现实世界数据保证仿真场景与真实场景的相似度，依靠交通要素的重新组合提高泛化能力。理论上，优质仿真可替代实车数据收集，降低算法搭建成本并提高迭代速率，但逼真的仿真环境构建和许多长尾场景的复现难度大。

大模型有望推动仿真场景大幅提升泛化能力，帮助主机厂提升仿真场景数据的应用比例，从而提高自动驾驶模型的迭代速度、缩短开发周期。

比如特斯拉基于虚幻 4 引擎渲染的仿真环境，测试自动驾驶系统在极端情况和复杂环境中的效果。毫末智行选择与阿里和德清政府合作，将真实交通流导入仿真引擎，用于路口场景的调试和验证。

优化小模型

除了数据层面，在模块化的算法部署模式下，感知算法和规控算法可通过大模型的加强实现感知精度和规控效果的提高。例如，大模型作为车端算法的「老师」，通过「蒸馏 (教授)」帮助小模型实现优异的性能。所谓「蒸馏」，就像老师教学生，将大模型或多个模型集学到的知识迁移到另一个轻量级的模型上。

比如百度将文心大模型的能力与自动驾驶感知技术结合，提升车载端侧模型的感知能力百度利用半监督方法，充分利用 2D 和 3D 数据训练一个感知大模型。通过在多个环节对小模型进行蒸馏，提高小模型的性能，同时通过自动标注为小模型定制化训练。大模型可以增强远距离视觉 3D 感知能力、提高多模态感知模型的感知效果。

端到端一体化

端到端的感知决策一体化算法被认为是自动驾驶算法终局，预测、规划、决策都在这个模型里。所谓「端到端」并不是自动驾驶领域独有的说法，本身是深度学习的一个概念，英文为「End-to-End(E2E)」，简单说就是一个 AI 模型，只要输入原始数据就可以输出最终结果，与 ChatGPT 类似。

在智能驾驶领域，端到端并不是新概念，1988 年面世的 ALVINN 自动驾驶试验车基于端到端架构，在大学校园实现最高 70km/h 的自主行驶。目前，许多厂商研发端到端智能驾驶技术，除特斯拉外，还有英伟达和 comma.ai 等。

这一驾驶方案更接近真实人类驾驶，只需要一个人来开车，从眼睛看到双手转方向盘、脚踩刹车或制动板，整个过程一气呵成，关键因素是人类的大脑中枢神经系统，端到端大模型的作用类似于人类的大脑中枢神经系统。

毫末 DriveGPT 底层模型，同样采用 GPT 这种生成式预训练大模型技术，首先通过引入大规模驾驶数据进行预训练，然后使用奖励模型 (Reward Model) 与 RLHF(人类反馈强化学习) 技术对人驾数据进行强化学习，对自动驾驶认知决策模型进行持续优化。

端到端自动驾驶，只是实现自动驾驶的最理想技术方案。目前，端到端大模型还存在许多痛点，最大的痛点是可解释性差。

从 PPT 到落地

然而，大模型和智能驾驶的融合并非一蹴而就。

理想汽车创始人、董事长兼 CEO 李想认为，大模型和智能驾驶可以分为三个阶段：

第一阶段是赋能，也就是智能辅助驾驶，赋能驾驶员，让驾驶更安全、便捷。这个阶段需要进行人机共驾的过程来训练大模型；

第二阶段是半机器人。随着越来越多的人使用辅助驾驶，智能驾驶会形成半机器人。它可以解决酒驾、疲劳驾驶等问题，相当于垂直领域的专家，可以看作是真正免费的司机；

第三阶段是 AGI（通用人工智能）。行为学习和认知学习会二合为一，大脑和小脑同时具备，机器可以独立获取信息，形成自主迭代。虽然无法预测这个阶段何时到来，但我们对此充满期待。

大模型发展时间线 | 网络

不过，大型模型在智能驾驶领域面临着众多挑战：

多模态数据

主要体现在多模态数据、训练和部署等几个方面。比如，自动驾驶所需传感器数据包括激光雷达、毫米波雷达、超声波雷达，以及高清摄像头、IMU、GPS 以及 V2X 等。这些数据来自不同的坐标系，带有不同的触发时间戳，以及要考虑到硬件损坏等问题时；同时，需要大量的场景数据，比如交通标志线、交通流、行为模型等等。

算力+芯片难题

从部署方面看，大模型需要高规格的硬件配置，包含高性能计算能力、大容量内存和低时延等特点。但车载设备的硬件条件相对有限，无法提供足够的计算资源支撑大模型运行。

具体来说，大型模型需要超过 10 亿级的 GPU 计算能力，例如在自然语言处理领域的 GPT-3 模型就需要数万亿次浮点运算（Tops）的计算能力。这要求芯片的算力至少要在万级 Tops 以上才能够胜任大型模型的计算任务。但是，在车载部署场景下，芯片的算力往往只有数百 Tops 左右，远远达不到大型模型的要求。

同时，大型模型需要大量的内存来存储模型参数和中间状态。例如，在自然语言处理领域的 GPT-3 模型中，需要使用 350GB 的内存来存储模型参数。但是，在车载部署场景下，芯片的内存容量通常只有几十 GB。

时延问题

此外，大型模型的部署还需要考虑时延的问题。例如，在自动驾驶场景下，需要对海量数据进行实时处理和分析，因此需要保证模型的推理速度和响应时间。但是，在车载部署场景下，要求模型的推理时延要控制在 10ms 级别。

总的来说，大型模型在智能驾驶领域仍是一个初级探索阶段，需要进行算法优化和硬件进一步改进才能真正落地应用。但它给业界带来的期望也很大——有望在未来让自动驾驶成为真正的「老司机」。

原创文章，作者：，如若转载，请注明出处：https://knewsmart.com/archives/162684

0 0 打赏

微信扫一扫

关于作者

0 文章

0 评论

粉丝

营收涨幅24% 大华股份的智慧物联之路愈发稳健

上一篇 2022年4月25日下午5:57

李斌向现实低头

下一篇 2023年6月16日上午10:57

发现

第三代元PLUS 11.99万元起正式上市全系搭载第二代刀片电池及闪充技术

5月21日，比亚迪第三代元PLUS正式上市，官方指导价11.99万-14.99万。新车定位元力智趣闪充SUV，凭借全能产品力契合元气青年、年轻家庭与科技实用派的多元出行需求，以全球车品质与年轻姿态解锁高品质纯电出…

新智派
6天前
1.6K
发现

人均16本？2026全国职场人阅读调查来了！

本雅明在一百年前写下过一个诊断：我们生活在一个体验超载的时代，但内心却感到贫乏，似乎没什么能真正沉淀下来。他把那种可传承、能生根的深厚经验称为“Erfahrung”，而把那些孤立的、转瞬即逝的刺激称为“Erlebnis…

新智派
2026年4月27日
13.7K
发现

田涛对话马拉比：在AI浪潮中破解“上帝密码”与人类命运

一壶武夷岩茶，升腾起连接东西方的氤氲热气。近日，《哈萨比斯：谷歌AI之脑》作者塞巴斯蒂安·马拉比，与华为管理顾问田涛展开了一场深度对话，整整2个小时，围绕人类“重构巴别塔”的雄心与野心，两位观察家在茶香中…

新智派
2026年4月20日
10.8K
发现

为什么我们还要读书？世界总有答案

OpenClaw能打开浏览器、查资料、写邮件、填表格——像一个不睡觉的实习生。 Gemini CLI能一口气吞下整个代码库，三秒钟给你一份精准的优化建议。 MGIE动动嘴就能修图，连软件都不用打开。 2026年，这些AI智能体不再是…

新智派
2026年4月20日
7.2K
发现

博世舒适科技日立冷热科技亮相中国制冷展，以绿色与智能引领行业升级

北京2026年4月17日 /美通社/ -- 在2026中国制冷展期间，博世舒适科技集团日立冷热科技集中展示了覆盖压缩机、空调系统及大型机组在内的全系列产品与解决方案。围绕绿色低碳与智能化发展趋势，公司正加快由单一设备…

新智派
2026年4月17日
2.8K
新智•新速•新未来｜OCS 2.0-SPE工业控制系统新品发布暨OCS@NIICA生态合作伙伴签约仪式圆满举行

北京2026年4月17日 /美通社/ -- 2026年4月16日，"OCS 2.0-SPE工业控制系统新品发布暨OCS@NIICA生态合作伙伴签约仪式"圆满举行。本次会议汇聚行业认证机构、核心技术伙伴及生态厂商，共同见证新一代工业控制技术的诞…

新智派
发现 2026年4月17日
5.3K
以责任赋能发展以初心传递温度 -- 中通快递正式发布 2025 年度可持续发展报告

上海2026年4月17日 /美通社/ -- 2026年4月17日，中国行业领先且快速成长的快递公司中通快递（开曼）有限公司（纽交所代码：ZTO及香港联交所代号：2057）（"中通"或"公司"）正式发布了2025年度可持续发展报告。这是…

新智派
发现 2026年4月17日
10.3K
水隐之触悦然心生 GROHE SPA水悦淋浴系统耀世登场

设计美学：采用高特朗水悦恒温控制面板，内嵌式按钮设计让科技隐于无形。核心技术：模块化创新设计搭配SmartControl控温技术，一键精准调控个性化组合。感官体验：宽大的顶洒与情绪调频式手持花洒结合，打造沉浸…

新智派
发现 2026年4月17日
2.6K
雅诗兰黛集团连续第六年参展中国国际消费品博览会，彰显深耕海南的长期承诺

海口2026年4月17日 /美通社/ -- 作为世界领先的优质护肤品、彩妆、香水和护发产品的制造商与营销商，雅诗兰黛集团连续第六年亮相中国国际消费品博览会（以下简称"消博会"）。围绕"重塑美妆新境，焕启致美之旅"的主…

新智派
发现 2026年4月17日
2.9K
发现

毛源昌眼镜亮相消博会，向世界讲述中华老字号新故事

杭州2026年4月17日 /美通社/ -- 4月13日-18日，第六届中国国际消费品博览会在海南海口举行。毛源昌眼镜作为商务部首批认定的"中华老字号"受邀参展，在老字号"镇店之宝"专题展示区，向全球客商呈现百年品牌的文化底…

新智派
2026年4月17日
2.5K

发表回复

登录后才能评论

华为、特斯拉带头，车企卷入「大模型」军备竞赛

关于作者

相关推荐

发表回复