“端到端”是万能药吗？——一个可能拯救自动驾驶的技术

在很长一段时间里自动驾驶技术都在龟速进步，不仅消费者没有耐心“吃大饼”了，自动驾驶工程师也没有耐心“愚公移山”了。最近，进击的“端到端”似乎开启了一个虫洞，一夜间，它为自动驾驶行业燃起了希望，那么它到底是什么捷径？是万能药吗？

今年3月16日，特斯拉突然对所有FSD用户推送了V12.3版本。一经亮相引发众多大佬为其代言。英伟达首席执行官黄仁勋表示：“特斯拉在自动驾驶方面遥遥领先。特斯拉FSD V12版本真正具有革命性的一点，它是一个端到端的生成模型。”小鹏汽车董事长何小鹏在6月份特意飞到加州体验了一下最新版本FSD，得出结论，FSD比他作为加州新手司机开得更好。

FSD V12带火“端到端”。

疗效怎样呢？由三方网站FSD Tracker统计的特斯拉车辆接管里程数据也表明了性能的提升。较之前版本，用户完全无接管的行程次数占比从47%提升到了73%，平均接管里程从116英里提高到333英里。业界普遍猜测，FSD V12大规模推送后，用户订阅比例从以前版本的2%提升至20%。

FSD性能提升明显

与此同时，别忘了，V12版本迭代速度也大大提高，其中从V12.3.1到V12.3.5，四个版本迭代仅用时15天。近日，V12.5版本也已更新。特斯拉自动驾驶团队负责人Ashok Elluswamy此前在社交平台曾说过，FSD V12仅训练数月，就已经完全超过V11版本数年积累。

成就自动驾驶？

当前主流智驾系统分模块运行，包括感知、规划和控制。传感器对周围环境进行准确感知，系统规划行车轨迹，然后执行系统对车辆进行闭环控制。在人工编写规则的自动驾驶时代，团队每天靠人工去调试各种各样的Corner case。智驾的规控优化成了一项愚公移山式的劳动密集型作业，行业也戏谑为“用人工堆出来的智能”。

“端到端”和“模块化”的比较

在规则体系下，如果说工程师们在不同场景反复写“if……then/else”代码还不够悲催的话，那么他们在日复一日的这种“头痛医头、脚痛医脚”的打补丁进化方式中寻找智驾未来，会更为绝望。在场景没穷尽之前，规则之间就已经开始相互打架，整个模块的可维护性越来越差。很长时间里，消费者感受到的是智驾功能的机械感和不可预期的宕机、错误，而智驾工程师们则手忙脚乱地淹没在无穷无尽的Corner case中。于是，消费者和工程师们隔着鸿沟面面相觑。

端对端过程

2022年12月，特斯拉的智驾工程师Dhaval Shroff建议马斯克，抛掉那些手写的规则，搭建一张神经网络，让它大量观看人类司机的驾驶视频，要求它输出正确的行驶轨迹。在反复训练中，这张神经网络可能会习得与人类相仿的驾驶知识。这个建议当即被采纳。经过一年的研发，今年1月份采用端到端架构的FSD V12向北美用户推送。

端到端三种流行范式：包括两种模仿学习框架（行为克隆和逆最优控制）以及在线强化学习

端到端的本质就是将驾驶行为的过程“神经网络化”，这一方案有很多优点。比如决策更拟人，驾驶更舒适，泛化能力更强，场景覆盖更加多样。历史彻底被改写。神经网络的优异特性体现在，它遵循大数据与大算力组合产生奇迹的暴力美学。

某自动驾驶芯片公司AI负责人提到，诸如“道路上一滩正在起火的油”与“道路上的积水”、“正面飘来的空塑料袋”和“前车落下的钢筋”这类需要常识推理的场景，以及“不同地区的不同红绿灯外观和路口等待规则”这类需要复杂环境理解能力的场景，要么很难用规则准确描述，要么其开发工程量巨大。

自动驾驶解放双手

而这些，对于端到端系统来说，都可以被训练为隐式的中间表示。端到端的作用当然不仅仅是原地撤回一个“愚公移山”任务，更重要的是在模块间的信息传递过程中，再也不用为了强行让感知和规控“对齐颗粒度”苦心孤诣，系统在决策时，丢失的信息越少，参考的信息越全面，达成全局最优的天花板越高。从感知层到决策层、再到执行层，信息传递更密集。小马智行CTO楼天城也表示：“端到端的好处是解决了信息丢失问题。以前不同的模块非要描述一些东西，其实在一定程度上限制了给下游传递的信息。”

国内跑步进场

端到端有多好，国内的玩家就有多追捧，跑步进场是基本的尊重。5月，小鹏汽车宣布国内首个端到端量产上车，预计四季度实现“门到门”智能驾驶。7月，理想汽车提出将端到端规划为三个模块：BEV（Bird's Eye View）感知模型；预测、决策和规划统一放在一个模块；红绿灯检测作为一个模块单独拎出来。8月14日，宝骏汽车联合卓驭共同宣布，即将上市的宝骏云海将搭载“成行平台”最新成果，将二段式端到端模型在主流车型上量产落地。此外，蔚来、华为、小马智行、元戎启行、商汤绝影等也陆续宣布相关方案。

大疆端到端

从他们推出的方案看，大部分还只是两段式的端到端，并不是最终形态。感知端仍保持上一代的解决方案，但预测、决策、规划已经被集成到同一个神经网络中。未来，演进还要经历“感知模块输出特征向量，而非基于人类理解定义的结果”阶段，再到One Model，这一阶段没有明确的功能划分，从原始信号输入到最终规划轨迹的输出直接采用同一个神经网络。

理想汽车端到端方案

值得一提的是，神经网络黑箱在获取更高上限的过程中，让渡了一部分传统模块方案具备的可解释性。国内普遍的决策，还是稳中求进的态度。余承东此前公开表示：“端到端上限很高，下限也很低。”也就是说，贸然采用端到端，可能系统表现还不如此前。“现阶段，端到端还是一个需要老师傅手工打磨的工艺，并不是完全输入信息，输出结果的自动工厂。”楼天城解释，“分段式，肯定会存在信息丢失，整个模型表达能力确实不如One Model。但好处是，训练的难度会低一些，每段之间会有明确的输出披露。One Model的模型表达会更强，但训练难度也更大。”

需要的IT“民工”少了

中国电动汽车百人会发布的《特斯拉FSD的发展和影响报告》显示，特斯拉FSD V12版本人工代码由30万行缩减至3000行。随着端到端的到来，自动驾驶团队的工作模式被彻底改变，团队明显变得更加精简。据悉，特斯拉自动驾驶算法团队300人左右，除去芯片设计端的100多人，软件端只有不到200人。此前负责planning control（规划控制）的负责人离职了。

自动驾驶架构演进示意图（自制）

而理想汽车裁员风波，李想在6月8日的中国汽车重庆论坛上给出的相关言论也是，“不需要养几千人的团队去搞Corner case”。也侧面印证了团队的精简。过去人海战术的投入产出实在不成正比。元戎启行CEO周光曾说过：“在模块化架构下，一位工程师一天只能处理10多个case，效率不高。”华为自动驾驶有6000位工程师，主要用来写各种规则。这个庞大的团队每年仅薪资成本就非常惊人。但此前华为ADS智驾系统在终端的实际落地价为单车6000元。

车企们调转方向的时间就在最近。年初蔚来将感知和规控团队合并为大模型团队，集成团队重组为交付团队。理想汽车在7月份才组建了200余人的“端到端自动驾驶”组织，其中理想智能驾驶技术研发负责人贾鹏负责“端到端”研发。比亚迪也在七月份引入百度舱驾融合智驾技术负责人周鹏，由其负责比亚迪的端到端大模型规控算法开发，独立于比亚迪规划院智能驾驶研发中心，新设立的团队300人左右。显而易见，主流车企智驾部门成立的端到端团队，规模都在200～300人左右，相较于传统智驾团队动辄近千人的规模，端到端团队精简得多。

需要的数据、算力多了

人力成本虽然省去，但不代表这场竞赛的难度骤然下降。首先，没有数据支持，计算就无从谈起。端到端智驾需要的视频数据获取成本和难度极高，数据质量要求也很严苛。一位自动驾驶工程师提到，他们在训练端到端模型时发现，已有路测数据只有2%可以用。在这方面，特斯拉巨大的销量促使其累计了全球最多的高质量行车数据，FSD累计行驶里程量级到20亿公里。

鸿蒙智行

特斯拉在端到端神经网络开发之初，就投喂了1000万个经过筛选的人类驾驶视频片段，以每段15秒计，也超过4万小时。这只是马斯克在2023年初透露的信息。此后，特斯拉人驾视频数据还在以每天1600亿帧/天的速度增加。而全球最大的自动驾驶公开数据集Nuplan的规模是1200小时。国内上海AI lab浦驾团队搜罗了整个Youtube，最终搭建了一个2000小时的数据集OpenDV-2K，涵盖240多个城市驾驶数据。截至8月，华为智驾总里程约为4.6亿公里，随着鸿蒙智行旗下车型销量逐步增高，有望与特斯拉缩小数据量差距。

特斯拉Dojo超级计算机用了非常多英伟达的GPU

根据特斯拉的计算，完成一个端到端自动驾驶的训练至少需要100万个、分布多样、高质量的clips（视频片段）才能正常工作。“毫不夸张地说，数据会占据端到端自动驾驶开发中80%以上的研发成本。”毫末智行数据智能科学家贺翔如此表示。除了数据层面的差距，国内智驾团队在算力储备上差距也不小。到今年年底，特斯拉预计将拥有100eflops云端算力，国内相关企业参数最高的是商汤的12eflops。智驾投入较为激进的华为，云端算力是5eflops。小鹏智驾云端最新算力储备是2.51eflops。集越汽车首席执行官夏一平也指出，端到端成本投入不在于开发模型，而是算力投资。

特斯拉超算中心为智驾提供算力

6月4日，马斯克在推特上说，买了10万片卡，但没地方放，就在德州工厂上扩展了一个数据中心，放了5万片进去。在国内，这实在是一种奢侈。蔚来AI平台负责人白宇利说：“想要做端到端，至少是万卡。”

小鹏AI算力储备

结语：端到端是好，难也是真难。何小鹏在小鹏汽车的520 AI DAY上提出，端到端之后，头部效应会越来越明显。在笔者看来，智驾是一条技术路径逐渐收敛的赛道，也是庞大的资源吞噬器。对于，资本、技术等实力并不那么强大的车企，在舱内深耕消费者体验，可能更有效。

欢迎线上购买《汽车之友》杂志

北京时尚

成都杂志铺

获取更多视频咨询，敬请关注《汽车之友》视频号

玩酷网

“端到端”是万能药吗？——一个可能拯救自动驾驶的技术

汽车有友论