理想智能驾驶又有大动作

“端到端”的风吹到了理想

今年下半年的智能驾驶风潮，似乎是由“端到端”引领着，现在各家玩智驾的车企好像不搞“端到端”就显得自己比别人落后了一分。

在华为、小鹏、蔚来等企业纷纷跟进端到端智能驾驶的研究后，今年7月初理想在一次发布会上表示自己也要掺和一脚。

图源：理想端到端模型

据媒体报道，近期的理想还专门成立了“端到端自动驾驶”实体组织，初步估计人数在200左右，并且公司其他团队也会灵活支援这个项目。

虽然在此之前理想曾公布过自己的端到端架构，但那会有不少人认为这还停留在“PPT层面”，而现在看来理想这次可不只是说说而已，是要动真格了。

自去年下半年以来，受到特斯拉的影响，国内智能汽车行业就掀起了一股端到端技术的研究热潮。

众多车企纷纷将目光投向这一领域，试图在自动驾驶技术的新赛道上抢占先机。端到端技术，这个原本只在学术范围内讨论的概念，一时间成为了行业热词。

既然要聊“端到端”，特斯拉的FSD V12无疑是一个绕不开的话题。

首先，端到端智能驾驶模式，就是由特斯拉给带火的。

并且，特斯拉以其在自动驾驶领域的深厚积累，已经通过FSD V12开始尝试将端到端技术应用到实际产品中，说它是目前端到端智驾的龙头老大哥也不为过。

特斯拉的创始人马斯克对端到端技术充满了信心。他曾在多个场合表示，端到端技术是自动驾驶的未来。

他甚至在社交媒体上宣称，FSD V12通过神经网络，将人工编程的C++控制代码由30万行缩减到了3000行，但有外媒质疑过这番言论的真实性，只不过马斯克本人并未出面辩解。

那么说了这么多，端到端技术究竟是什么？它与之前的智能驾驶技术又有何不同？

简单来说，端到端技术是一种全新的自动驾驶解决方案。

在传统的自动驾驶系统中，通常采用的是模块化的方法，即将整个自动驾驶任务分解为感知、规划、决策等多个模块，每个模块负责处理特定的任务。

而端到端技术则打破了这种模块化的界限，它将自动驾驶的整个过程视为一个整体，从输入的传感器数据到最终的车辆控制指令，全部由一个统一的神经网络模型来完成。

如果将自动驾驶比作一场接力赛，那么传统的模块化方法就像是一场长跑接力赛，其中每个模块就像是一名接力选手，他们需要一棒接一棒地完成比赛。

而端到端技术则像是单人长跑，整个比赛过程由一名选手独立完成，无需交接棒。

端到端技术的优势在于，它能够减少模块间传递信息时的损失和延迟，提高系统的响应速度和决策效率。同时，由于整个系统由一个统一的模型来控制，它可以更好地进行全局优化，提高自动驾驶的性能。

更重要的是，端到端技术可以让整个智驾模式只需要调用一个大模型。

在马斯克的设想中，原来的模块化模式，会将自动驾驶操作分为不同层级进行处理，每个层级需要调用一至多个大模型来收集信息，处理信息，输出信息。

图源：B站

而端到端就可以将上述步骤全部交给一个大模型来做，这样输入和输出的数据参数都在一个模型上跑，一定程度上也减少了决策误差。

不过，端到端技术同样有着其负责的另一面。例如，如何设计出一个能够处理各种复杂交通场景的统一模型，如何保证系统的安全性和可靠性等问题就令人十分头疼。

好在国内的车企目前对于端到端技术的研究并非一蹴而就，而是都在先做好自己手头的智驾方案，各家也都在推动自己的NOA加快落地多个城市。

比如理想汽车此前就先是提出城市NOA落地100城的目标，随后又调整为“通勤NOA100城”，以应对华为和小鹏的智能驾驶冲击。

而到了今年7月，随着理想汽车端到端+视觉语言模型早鸟计划的公布，CEO李想公开表达了自己的豪言壮志：“到今年底或明年初，理想将推出端到端+VLM的自动驾驶方案。”

这一方案将由超过1000万个视频片段训练而成，且理想还计划将参数达22亿的视觉语言大模型搬上车。

这次的组织成立仅仅是个开始，最后到底能不能成，做出来的“端到端”在行业内又能排到哪个位置，一切都要等时间给我们答案了。

理想汽车的雄心

理想作为如今势头正盛的新能源新势力，如果只是单纯宣布要跟进做“端到端智驾”，好像也是件正常的事，毕竟目前这个汽车市场属于“不进则退”。

但有意思的地方就在，理想这一次的技术思路，与特斯拉有着诸多相似之处。

正如我之前所说，特斯拉通过一个统一的神经网络模型，实现了从传感器数据到车辆控制指令的直接映射。

理想汽车同样采用了这一技术路线，但其在具体实现上有着其独特的创新——理想的具体方案，包括端到端模型、视觉语言模型（VLM）和世界模型三部分。

这意味着在车辆做出的自动驾驶决策中，除了和特斯拉一样由端到端模型直接处理外，还能由视觉语言模型与云端的世界模型进行辅助控制与纠正，听起来多了些可靠性和安全性。

那么其他家是怎么做的呢，这三个模型具体又有啥用？

我们可以看到，华为在端到端技术上的布局，主要集中在其ADS系统。华为的ADS系统采用了一种结合少量人工规则与端到端模型的技术，并正逐步减少对人工规则的依赖。

图源：华为ADS3.0发布会截图

华为的系统主要包含两个关键部分：GOD（通用障碍物检测）和PDP（预测决策规控）。GOD网络使得ADS在障碍物识别方面实现了较大的飞跃，而PDP网络则将预测、决策和规划整合为一个统一的网络。

小鹏汽车则通过其XNGP系统，采用了分段式端到端技术。

图源：小鹏汽车官网

XNGP系统由神经网络感知网络XNet、规控大模型XPlanner和大语言模型XBrain三个部分分段完成智驾的感知到决策的过程。

这种分段式的方法，虽然在技术上与理想汽车的一体化模型有所不同，但理论层面上与它也差异不大。

具体对比理想汽车的这三个模型来看，理想的可以说有创新，有想法，待实现。

据官方介绍，理想汽车的端到端模型，是通过接收传感器输入，并直接输出行驶轨迹用于控制车辆，实现从感知到决策的无缝衔接，太有特斯拉的味道了。

值得一提的是，在理想的端到端技术方案中，"4D One Model"是一个关键的创新点。它可以通过整合感知、定位、规划和导航等多个模块，实现从传感器数据到车辆控制指令的直接映射。

理论上来说，它也使得理想汽车在处理复杂交通场景时，能够更加精准和可靠。

另一个VLM系统则是通过视觉语言模型，对环境进行深入理解和分析。

主要的作用还是识别和分析道路标志、交通信号等多种视觉信息，从而为驾驶决策提供更加丰富和准确的数据支持。

但有一说一，这样的VLM仅从功能来看并没有啥区别于其他家的创新点，能不能和特斯拉或华为的智驾识别系统相比更是难说。

不过最后这个所谓的世界模型倒是有些意思。世界模型通过模拟和预测车辆周围的环境和交通状况，为驾驶决策提供了更加全面和深入的背景信息。

这种世界模型的构建，提升了系统的预测能力和规划能力。

更关键的是，它的存在让理想的端到端并不完全脱离云端，这就没有了网友们之前所说“端到端与传统的不同就像‘Siri’和‘ChatGPT’之间的差异。”

理想要落地端到端还早着呢

说了这么多，还是不得不讲出那句话：理想很丰满，现实很骨感。

正如任何前沿技术一样，理想在推进端到端技术的过程中，也不可避免地面临着一系列的挑战和难题。

首先，端到端技术的核心在于算法的优化和数据处理的能力。并且随着驾驶场景增多与复杂化，对于这两个方面的要求还在提高，这还只是理想未来要解决的基础问题。

其次，实现端到端智能驾驶，不仅需要先进的算法，还需要强大的计算资源，理想汽车需要大量的训练数据来优化模型。

就连马斯克都说FSD要完成端到端需要60亿英里的训练数据，而目前仅实现6分之一，这对于刚起步不久的理想更是一场挑战，其在这方面的投入和努力，将直接影响到端到端技术的实际效果和可靠性。

此外，面对法律法规对智驾的限制、市场对新技术的适应周期，还有其他众多竞争对手的虎视眈眈等诸多困难，理想汽车又该如何应对呢？

还得看看理想有多大魄力，李想有多大决心。

作者 | 刘峰

玩酷网

科技事心爱心