称3年实现自动驾驶，李想会被打脸吗？

6月8日，李想在公开演讲中表示，基于现有计算平台，有监督的L3级别自动驾驶100%可实现，无监督的L4级别自动驾驶三年内一定可以实现。

作为上述论断的技术依据，李想分享了理想汽车与清华信息交叉学院赵行博士团队合作的“快+慢”双系统架构。

这是一个比“端到端”更上层的架构，也是更前沿的自动驾驶技术探索。在今年3月的英伟达GTC 2024上，理想汽车智能驾驶技术研发负责人贾鹏已经对其做过分享。

李想在这个时间节点亲自再讲一遍，并公开表达不可谓不激进的目标——合理的推测是，理想内部的工程化进展让他感到乐观，同时可能希望借此激励团队挑战更高的目标。

通过分析理想智驾在发展现状、技术探索、资源投入（分别决定当前位置、前进方向和加速度）三方面的情况，笔者认为，理想汽车有望在2年内领跑国内智能驾驶产业，并在中国市场与特斯拉竞争。

以下逐一展开。

一

6月18日，理想汽车宣布将AD Max 3.0的推送规模从1,000人扩大到10,000人。

AD Max 3.0是完全不使用高精地图的全场景NOA软件栈，可粗略对应特斯拉FSD v11的后期版本。

从下面的架构图可以看到，理想AD Max 3.0已经把「预测」和「规划」纳入同一个神经网络模型。下一步演进方向是将其与感知模型打通，实现信息无损传输、可全局优化的“端到端”架构。

目前，华为、小鹏等国内领先的智能驾驶厂商，在技术架构上也处在大致相同的演进阶段。

华为将在今年8月推送的ADS 3.0中，负责大感知任务的是GOD网络（General Obstable Detaction），负责预测、规划的是PDP网络（Prediction Decision Planning），再下游还有明确的“运动控制”模块。

GOD网络与PDP网络之间是使用人为定义的接口，还是通过隐式表达特征交互？华为并未在公开场合明确说明过——二者的区别决定了“感知-预测-规划”整个链路能否实现信息的无损传递和全局优化，即是否可定义为“端到端”系统。

小鹏汽车于5月20日AI Day上更新的XNGP架构中，大感知网络是XNet，语言模型XBrain负责意图推测，规划网络XPlanner则负责“老司机般的脚法”。

与华为相似地，尽管使用了“端到端”的表述，但目前没有证据表明小鹏XNGP已实现了“感知-预测-规划”整个链路的信息无损传递和全局优化。

若以辰韬资本《端到端自动驾驶行业研究报告》中的定义为衡量标准，华为、小鹏、理想当前的智驾系统架构均处于“决策规划模型化”的演进阶段。

换言之，与特斯拉相比，目前国内几个领先的智驾厂商——华为、小鹏、理想、蔚来——之间不存在代际差距。

若能在2024年Q3实现AD Max 3.0全量推送，理想汽车将会抹平其智驾研发起步晚、前期投入少的劣势，跻身国内量产智能驾驶第一梯队。

二

因为有特斯拉做开路先锋，中国车厂在智驾研发上有明确的跟进方向：

接下来的目标是实现「感知-预测-规划」的端到端量产上车，路径是先实现“模块化端到端”，再演进为“单一模型端到端”。

李想此次所讲的内容，是在实现端到端基础上的更进一步。

由于特斯拉不再举办AI Day，FSD v12的技术细节未公开，业界并不确定其究竟是模块化端到端还是单一模型端到端，也不知道特斯拉从FSD v12到Robotaxi的实现路径。

我们知道，要具备L4级自动驾驶能力，当前的智能驾驶系统还缺少一些基于人类常识的理解能力，例如看懂交警的手势、临时的文字标识，或是预判动物的移动轨迹，识别学校路段并减速慢行，在路面坑洼时减速以缓解颠簸感……

亦或仅仅是——看懂导航地图。

据理想汽车智能驾驶副总裁郎咸朋介绍，“快+慢”的双系统架构，正是源于看懂导航地图的需求。

“无图方案由于没有了高精地图，在比较复杂的路口有概率会开错道。李想问我们能不能教会NOA系统像人一样看得懂导航地图，而不是仅仅用感知结果进行判断。我们经过考虑，车上得有两个系统，一个是开车的，一个是看图的，于是一切就从这里开始了。”

受《思考，快与慢》一书的启发，理想团队将人脑的工作方式分为系统1和系统2：

系统1：自动的、快速的、无意识的思维模式，通常基于直觉和经验，它所对应的是行为智能。

系统2：模拟人类或其他高级生物的思考过程。这种类型的智能不仅仅是关于行为，而是更深入地涉及理解、推理、学习和适应，所对应的是认知智能。

有了系统1和系统2的理论基础，人类的驾驶过程也可分为以下两种：

1.自动化驾驶过程（系统1）：习惯性和直觉性的行为，如换挡、在看到红灯时停车。这些快速的、无意识的行为，会随着驾驶经验的增加而变得更加自动化。

2.复杂控制过程（系统2）：在复杂或新颖的驾驶情况下，如突发紧急情况、复杂的交通或不熟悉的路段，驾驶员需要更加集中注意力，进行深思熟虑的决策。这些过程是缓慢的、需要意识的，涉及高级认知功能，如判断、规划和决策。

迄今为止，特斯拉、华蔚小理们所研发的智能驾驶系统，主要完成系统1的任务。

理想汽车引入的系统2，来源于与清华赵行团队合作的论文《DriveVLM: The Convergence of Autonomous Driving and Large Vision-Language Models》。

简言之，DriveVLM的工作原理是，先将摄像头输入的图像序列生成图像tokens，并通过自注意力机制捕捉其中的重要特征，与大语言模型对齐；随后，大语言模型通过思维链（CoT）进行推理，主要包含三个模块：场景描述、关键对象分析和分层规划。

「场景描述」是指对驾驶环境的语言描述，包括天气、时间、道路环境、车道状况等，方便系统判断是否要选择更谨慎的驾驶方式、是否需要变道等。

「关键对象分析」为的是识别出那些会影响车辆驾驶决策的对象，例如出现在路上的牛群羊群、站在路中间的交警、在路沿踉跄前行的醉酒行人……都可能对车辆行驶产生重要的影响。

传统的智驾系统不具备这些能力，但生成式AI的快速发展提供了解决方案：通过引入VLM（视觉语言模型），系统能够根据图像中关键对象的静态属性、运动状态和特定行为，判断其对驾驶决策的影响。

「分层规划」指的是VLM生成场景摘要，用自然语言对车辆所在的环境和环境中的关键对象加以描述，并结合驾驶路线、车辆位置、车辆速度等信息，给出可操作的驾驶决策，以及规划轨迹提示。

DriveVLM能够帮助自动驾驶系统建立zero-shot能力——即使遇到从未见过（训练过）的场景，也能像人类一样通过理解、分析、推理，最终安全应对。

如此一来，按照李想的话说，“不再需要养几千人的团队去搞corner case，而且团队越多corner case越多了”。

理想汽车将系统1、系统2分别部署在车端的2块Orin-X芯片上。由于VLM的基础是生成式大语言模型，参数量巨大。为部署到车端，理想采用的VLM经过剪枝、压缩到了20亿参数规模。但即使如此，VLM在车端的推理速度只能达到1-2Hz，相比智能驾驶感知（10-20Hz）慢了一个数量级。

两个异步并行的系统如何分工呢？

答案是，系统1负责自动驾驶车辆的日常行驶，当系统2看到有一些复杂的场景以后，它会把规划轨迹信号额外地送到系统1，去帮助、改变系统1的规划轨迹。

此外，为了验证系统1+系统2的能力，理想还需要创建一个云端的“世界模型”对其做仿真验证。

对此，李想提到Sora，不过Sora的原理是图像的逐帧渲染，而自动驾驶仿真需要的是符合物理规律的重建——从贾鹏的分享中可以看到，理想目前采用的方法是3D高斯重建。

理想汽车目前已经用超过100万个clips（视频片段）对模型进行训练。每个clip的长度是30秒，100万个clips约等于1万小时、50万公里驾驶数据。

郎咸朋介绍称，这些用于训练的clips是从上亿公里的真实数据中精挑细选出来的“五星司机”数据。数据标注过程、模型的训练过程已经实现完全的自动化，目前每周迭代3-5个版本。

到今年年底，理想的训练数据量预计将达到1000万clips。

此外，补充一条有趣的信息：

特斯拉Autopilot资深工程师Yun-Ta Tsai曾在6月15日分享称，机器人AI与互联网AI的一个显著不同是，ChatGPT这样的互联网AI对毫秒级别的延迟不敏感，但机器人必须在吞吐量和延迟之间寻找平衡，有两个级别的系统在发挥作用：在低级机械控制中，你只有几微秒的时间，就像火箭发动机一样，在偏离航线之前几乎没有时间调整推力；另一个高级系统，则必须在做出重大决策之前汇总所有信息。

这番思考与本文讨论的系统1、系统2颇有相似之处。若特斯拉FSD也采用类似的架构，应该不让人感到意外。

三

李想在6月8日提到，在接下来的一段时间，包含本月和下个月的几个关键的AI技术论坛里，理想汽车的研发同事会向整个行业分享理想在智驾方面的所有研究。

目前已经看到的一些分享包括但不限于：

西湖大学、理想汽车、天津大学等共同开发的自动驾驶视频生成模型Delphi。贾鹏分享的一篇论文显示，理想汽车未来会像特斯拉所做的那样，将摄像头输入信息跳过芯片上的ISP模块，把RAW源数据直接输入神经网络，从而减少信息丢失。理想智驾近期开源的一个3D汽车数据集，“通过3D扫描仪对2500辆汽车进行细致扫描，获得具有真实世界尺寸的汽车图像和点云”。

一个明显的感觉是，在特斯拉停止大规模对外分享自动驾驶研发信息之后，理想汽车希望接过“领头羊”的角色。

当然，无须赘述的是，真正意义上的领头羊，还需以量产结果为判。

在“端到端”以降的智能驾驶产业，最核心的三个要素是人才、数据、算力。

随着人工编写代码需求的式微，神经网络模型的数量越来越少、单个模型的规模越来越大。对人才数量的需求降低，对顶尖人才的需求上升。

这是因为，为模型设定的训练目标决定了模型能力的上限，由少而精的顶尖算法人才定义训练目标，效果远好于“人海战术”。

对数据处理的设计和运行，亦是同理。

算力，在不考虑地缘政治影响的情况下，可等同于GPU集群的规模，亦即等同于$$$的投入规模。

当然，这里不能忘了：搭建、运营千卡乃至万卡规模的AI Infra集群，是全球紧缺的能力，这又是一个归于“人才”的要素。

理想要做中国智能驾驶的领跑者，最大的竞争对手无疑是华为。

华为拥有远强于理想的基础研发能力、组织能力、人才规模、资金资源，并且鸿蒙智行系列车型当前的市场销量已经不输于理想。

与华为相比，理想汽车的优势在于公司CEO的投入程度（时间、精力）、资源调度能力、战略一致性。

理想汽车这家企业成立的初衷，就是做自动驾驶。

2020年，李想在接受《建约车评》采访时称，如果没有自动驾驶技术的出现，他恐怕都不会造车。他造车、拼命地卖车，就是希望在2025年的时候，能够获得一张自动驾驶赛道的入场券。

从李想的公开演讲中可以看出，作为非技术出身，他主动花费了大量时间精力去思考自动驾驶的技术细节，从而能够用自己的语言、举出自己身边的例子，来讲述其对技术的理解。

李想为理想汽车设立的愿景是“2030年成为全球领先的人工智能企业”——为实现这一愿景，理想必须保持专注，持续稳定地投入尽可能多的资源在AI领域。

战略清晰稳定、CEO亲自主导、组织灵活高效、资金资源充足，在满足这些条件的前提下，理想智驾有望与华为、特斯拉这样的巨头竞争。

当然，实现这一切的前提是理想汽车的商业成功、健康存续。

累计交付80万辆是一个很好的基础，理想汽车还需通过更多更好的产品进一步抢夺BBA的市场份额，提升销量。

结语

之所以将时限定为“2年以内”，是因为根据过往经验，“华蔚小理”们对标特斯拉FSD v12的端到端量产上车，大约会在2025年年中。

据此推演，再结合李想“3年内实现L4”的表述，笔者认为2026年年中将会是理想「端到端+VLM」方案成熟并全量推送的时间节点。

此外，特斯拉FSD进入中国市场后，还需一段时间的本地化部署和市场接受。因此，中国厂商与特斯拉在用户层面的智能驾驶竞争，也可能在2026年年中达到高潮。

L4级别自动驾驶的实现，受到诸多不确定因素的影响。即使3年后未能实现，如果理想能够如笔者预测做到中国领先，相信他也会欣然接受，与埃隆·马斯克一起愉快地被“打脸”。

· END ·

玩酷网

称3年实现自动驾驶，李想会被打脸吗？

衣衣谈汽车