
最近,身处美国的何小鹏在体验了特斯拉 FSD V12.3.6 后,发出了这样的感叹:「2025 会是完全自动驾驶的 ChatGPT 时刻!」

比他早一点,马斯克也曾说过:「特斯拉也会迎来一个所谓的『 ChatGPT 时刻』,不会迟于明年。」
不只他俩,理想汽车的李想、驭势科技联合创始人吴甘沙都在不同场合提到过这个「智能驾驶的「ChatGPT 时刻」。提到这个智能驾驶的里程碑式时刻,大家最近首推的功臣,就是端到端技术。
最近,采用了端到端技术的 FSD V12.3 公布了一系列数据,平均接管里程从 116 英里提升至 286 英里,用户完全无接管的行程次数占比从 FSD V11.4 的 47%上升至 72%,进步神速。

(图片来源:Tesla FSD Tracker)
在 FSD 的带动下,端到端也成了新风口:前不久,蔚来智能驾驶团队重组,正式转向端到端技术路线;更早的时候,小鹏公测了基于网络神经的端到端大模型;华为 ADS 3.0 端到端系统将在 8 月推送;极越搭载百度 Apollo 视觉大模型 VTA ,转向端到端路线。

让大家寄予厚望的端到端系统,是将智能驾驶推向「ChatGPT 时刻」的关键么?智能驾驶质的飞跃,我们还需要等多久呢?
端到端,敲响「ChatGPT时刻」的前奏
“It’s like Chat-GPT, but for cars!!!”
这句话来自于 2022 年 12 月,一位特斯拉自动驾驶工程师提出了一个新的方案, 然后发出了这样的感叹。让他发出感叹的方案,就是如今风靡整个行业的端到端架构。尽管几年前,端到端架构在自动驾驶领域的运用已经出现在英伟达论文中,但正式落地使用还是从特斯拉的这次转变开始。

什么是智能驾驶的端到端架构呢?严格的定义是:从传感器输入到控制输出的单一神经网络模型。也就是这边信息输入进去,那一边结果输出出来,中间的过程交给神经网络模型处理。
这个定义有点晦涩,不过跟智能驾驶的传统架构来对比,就清楚了。
传统的智能驾驶方案中,把复杂的任务拆解成了感知、决策规划、控制等几个模块。再把每个模块拆分成一个个小任务,也就是一个个规则;每个模块按照规则完成感知道路、识别障碍、规划路线到系统下发指令、操纵车辆行驶。

(传统智能驾驶方案中各个模块划分)
所以,传统的智能驾驶系统也被称为「规则执行器」,每一步都按人为设定的规则来,一项项规则接力,最终输出结果。这就意味着,一旦某个任务出现规则之外的情况,整个系统就无法接力下去;要想解决,就加入新的规则代码,场景越多、新的规则代码越多,系统越来越大。
端到端架构,就是把中间几万、几十万项规则,变成一个深度学习网络大模型,通过学习人类驾驶行为,实现输入数据、直接输出结果的效果。这种思维方式跟人的大脑还真有点儿类似:过程不一定严守规则,只要达到目的就行了。

看起来,「端到端」像个黑盒子,一切都靠跟人学。也正是因为「跟人学」,所以端到端架构的智能驾驶,能更接近人类的驾驶习惯,没有那么重的机器感;同时,没有了中间一条条具体的规则,整个系统更简洁了。
按照特斯拉的更新日志,采用端到端的 FSDV12 经过数百万个视频训练后,可以减少 30 多万行 C++代码,仅保留了 3000 行代码。
当然,上边说的都最理想状态的端到端,现实中,目前被各家车企、自动驾驶供应商宣传的端到端,并没有那么彻底。
在辰韬资本发布的《端到端自动驾驶行业研究报告》中标明了自动驾驶架构演进的四个阶段:感知端到端、决策规划模型化、模块化端到端、单一模型(One Model) 端到端。

目前能看到的「端到端」,有的是感知端到端阶段,比如引入来百度 Apollo 视觉大模型 VTA 的极越;有的,是将规划决策模块的规则模型化,比如前不久华为 ADS 3.0 将决策规划规则替换成一张 PDP 神经网络、小鹏在天玑系统引入神经网络模型 Xplanner、特斯拉 FSD 采用感知和规划两个神经网络模型等。

模块化端到端,虽然感知神经网络和决策规划神经网络都做到端到端,但彼此之间之间依然相互独立,需要人工设计的通信接口来传递。这就像人在开车时,眼睛、大脑和手脚之间无法直接沟通,仍然需要一次外界的信息传递;相应地,信息传递的效果也会打折扣。要想进一步做到单一模型的端到端落地,可能要到 2026~2027 年。

(模块化端到端与 ONE Model 端到端的区别)
这也体现出另一个问题:由于端到端架构的「黑盒子」属性,除了各家企业自己的宣传外,外界很难确认各家具体的技术路线;要评价具体水平如何,只能看最终落地的效果。
把端到端当「金手指」,还太早了
端到端是不是智能驾驶的金手指?现在来看,这么说还为时过早。要让端到端发挥最大的效果,至少还需要迈过三道门槛:算力和内存、数据,以及未知的训练效果。
前不久,特斯拉在得州工厂造了「大风扇」,用来给 5 万片英伟达 H100 芯片散热,这些芯片用于特斯拉自动驾驶 FSD 的训练。用 5 万片 H100 芯片训练 FSD,这事儿听起来是很疯狂,但也指出了端到端架构的一个问题,非常依赖数据训练的效果,相应地,也非常依赖算力和内存。

蔚来 AI 平台负责人、资深研发总监白宇利的说法,跟特斯拉「屯芯片」的动作正好呼应:至少需万卡级的算力集群,确保训练有效率和恢复时间。也只有在在数据量和算力足够大的情况下,端到端模型联合优化可以提升智驾算法功能和体验上限。
因此,最近能看到国内智能驾驶的头部玩家们,部署智算中心的动作:
特斯拉 Dojo 智算中心,计划100000 PFLOPS
小鹏「扶摇」智算中心,600 PFLOPS
理想智算中心, 750 PFLOPS
吉利星睿智算中心,810 PFLOPS
华为车 BU 云智算中心 3500 PFLOPS
商汤绝影智算中心 12000 PFLOPS
毫末智行「雪湖·绿洲」智算中心,670 PFLOPS
百度 Apollo智算中心,2200 PFLOPS

有了智算中心这个「基础设施」,端到端智能驾驶才能开始走上正轨,解决大规模数据训练的问题。
在去年财报会上,马斯克曾说:「用 100 万个视频 case 训练,勉强够用;200 万个,稍好一些;300 万个,就会感到 Wow;到了 1000 万个,就变得难以置信了。」
这 1000 万个视频 case 包含了大量的图像帧、标签、传感器数据等,我们很难把他具体转换成多少参数;不过有资料显示,在自动驾驶的应用场景中,所使用的大型神经网络模型的参数量通常不会超过 10 亿个参数。不超过 10 亿个参数,这个参数量看起来只是 GPT-3 的几十分之一,不过对于车企和自动驾驶公司们来说,可是个不小的挑战了。

据相关自动驾驶工程师透露,现阶段智能驾驶系统运行的数据中,只有一部分可以作为真正有用的训练数据,有效数据的占与各家的模型、训练方法都有关,占比越高,迭代速度越快;而且相比于数据的数量,数据在一定量级基础上的「多样性」更重要。
有了算力和数据,端到端大模型也不是一个「大力出奇迹」的领域。
前不久马斯克在一场活动上说,FSD V12 的难点就在于,需要在有限的算力条件下进行优化、精简模型,要解决的问题又复杂了一个数量级。如果不对模型优化、参数精简,很可能把 复杂、庞大的模型不仅会耗费宝贵的内存和算力,影响系统的反应速度,还可能由于数据量过大,让模型出现过拟合,学习到训练数据中不应该被学到的「噪声」。
如何保证大型神经网络模型既轻量化又有高效的预测能力,也是端到端架构未来落地效果的关键。
最后
端到端是自动驾驶的终局方案么?
对于这个问题,目前行业里有一部分人觉得端到端就是自动驾驶的终局;也有一部分人觉得,它只是未来众多方案之一。
就像每一个行业新热点一样,新技术趋势的兴起让自动驾驶行业目前逢人必谈「端到端」,但「端到端」这个概念本身并不是点石成金的金手指。有自动驾驶从业者给出建议,要从传统智能驾驶方案转向端到端方案,需要团队具备丰富的数据访问、处理、模拟能力;需要团队中有大量深度学习研究人员;同时对原本的智能驾驶方案本身也有一定的要求,借用蔚来 AI 平台负责人、资深研发总监白宇利的一句话,“如果说在没做端到端的时候,能达到60-70分的效果,之后也很难通过改变架构做到100分。”
不论端到端是否是自动驾驶的终局,现阶段的端到端架构,的确是提高了智能驾驶的上限,也一定程度上加速了智能驾驶的发展。不过要搭上风口,让端到端架构的实力从科研走向商业化落地,车企们依然需要更多的数据储备、算力储备、内存储备、人才和经费储备,以及智能驾驶行业最需要的,打持久战的能力。