这两天我在美国加州体验了 FSD v12.3.6 的版本,也打了一台 Waymo 体验。
总的来说,在旧金山城区 Waymo 表现更好,而 FSD 在硅谷和高速表现极好,可以达到很高的分数,很多路况处理都很丝滑。我非常感慨 FSD 在数月里有很大的进步,我们也会向 FSD 学习他们优秀的功能点和用户体验部分,我相信 2025 年会是完全自动驾驶的 ChatGPT 时刻!
上周,何小鹏远赴北美。除了现场观看 NBA 决赛,参加投资趋势会议,还顺便亲自体验了特斯拉的 FSD v12 以及 Waymo(Alphabet 旗下无人驾驶出行服务商)的智驾表现。
何小鹏在美国体验特斯拉 FSD-图片来自微博@XP-何小鹏
马斯克曾在 4 月末进行了一次极速访华,本次访华的目的是讨论 FSD 在中国落地的可能性。
在其飞抵北京的同一日夜间,中国汽车工业协会、国家计算机网络应急技术处理协调中心发布《关于汽车数据处理 4 项安全要求检测情况通报(第一批)》,通报指出:
特斯拉上海超级工厂生产的车型符合规定要求,首批 6 家合规车企中特斯拉是唯一一家符合要求的外资车企。
成为首批合规的车企,这也意味着特斯拉有望各地陆续解除禁行禁停限制。而特斯拉中国官方的 FSD 购买页面描述,也从「稍后推出」变更为「即将推出」。
特斯拉 FSD 落地中国,正比任何时候都要接近成为现实。
Elon Musk-图片来自:AFP
远赴特斯拉大本营,亲自体验 FSD,何小鹏其一重要目的是:让 XNGP 与特斯拉的 FSD 隔空较量,看看两者孰强孰弱。
昨日,何小鹏在社交平台上放出了 FSD 体验的详情视频,主体的体验环节由三段导航里程(加州大道-斯坦福游客中心-谷歌游客中心-Mission Bay)组成。
电车实验室对视频内容要点做了较为完整的速记,以此回顾何小鹏对 FSD v12.3.6 的体验观点:
事实上,这已经不是国内新势力首次与 FSD 的「隔空对标」了。
余承东不止一次在发布会上透露,华为内部团队曾远赴美国旧金山等地,将华为的 ADS 与特斯拉的 FSD 进行了测试对比,而他认为华为的 ADS 智驾系统仍然拥有着全球最好的智驾能力。
如 2020 年特斯拉中国成为新能源市场「鲶鱼」的那个前夜,靴子即将落地的 FSD,也正成为国内车企争相对标的对象。
何小鹏为特斯拉 FSD 鼓掌-画面截自微博视频号@XP-何小鹏
端到端,AI 的新秩序
频频被提及对标,特斯拉在 FSD 上做到了什么。
去年 8 月,加州 Palo Alto,马斯克亲自完成了一次 FSD v12 的实车测试。他驾驶一台搭载 HW3.0 硬件的 Model S,从特斯拉工程总部出发,全程实况直播。
时长 45 分钟的测试中,这台运行 FSD v12 的 Model S 仅出现一次被迫接管情况,马斯克表示:FSD 会模仿人类的驾驶习惯,神经网络的可成长性也将大幅修窄智驾的犯错空间。
马斯克所说的神经网络,指的是端到端神经网络(End-to-End)。
何为 End-to-End 端到端架构?
在自动驾驶主流开发中,往往会将系统分为感知、规划、决策三个模块,先感知车辆环境,再规划行车路径,最终输出执行路径完成 AD 系统的运行闭环。
分拆的模块模仿了人类驾驶认知-分析-决策的步骤,模块间独立运行,提升模块间透明度的同时还降低了开发的难度。
支撑模块运行,是其背后大量的人工代码,三个模块的代码量也意味着智驾人员的冗余庞杂。而更关键的问题在于,人工代码始终是规则框架内的产物,在代码驱动下的自动驾驶无法处理长尾问题。
相比主流方案,特斯拉的端到端模型将感知、规划、决策的模块融合,形成新的神经网络。
马斯克透露:引入端到端神经网络后,特斯拉替代了 FSD 中 30 多万行的 C++ 代码,v12 初始版本的人工代码仅剩下 3000 行。通过神经网络,特斯拉车辆在直接输入传感器数据后,即可生成制动、加速及转向信号。
抛却「死板」的人工代码,特斯拉将大量包含人类驾驶的视频数据压缩,支持 FSD 的拟人化成长。
这也意味着:智能驾驶在完成 L2/3 的布局后,下一步的目标就将会是 L5 完全自动驾驶。
2 月中旬,特斯拉确认开始向非内部员工车主推送 FSD Beta v12.1.2。尽管推送覆盖面积仅为随机 0.5%-2% 符合条件的车主,但基于端到端神经网络的智能驾驶,走出了大规模应用的第一步。
E2E 神经网络的出现,松开了长尾事件对智驾开发的束缚,创造了更有想象力的技术上限。但在享用端到端大模型先进性的同时,车企还要有足够的体量支撑。
想要大模型准确、无误地修正驾驶逻辑,车企需要为此投喂大量高质量的驾驶数据,数据库首先就会受到挑战。
这对于特斯拉来说,并不是什么难题,从生产第一辆 Model S 开始到今年 4 月,特斯拉在全球范围总计生产超过 600 万辆新车,而多年来 FSD 驾驶的累计里程也已经超过了 10 亿英里(约 16.09 亿公里)。
7 个视角的模拟现实视频输出-内容截自 X(原推特)
除了真实的海量道路片段数据,马斯克透露:大约一年多前,特斯拉就已经能够利用精确的物理原理制作真实模拟世界的视频,而相比爆火的 Sora,特斯拉领先之处更是在于能够提供极为精准的物理现实,帮助 FSD 更好地理解现实世界。
从 2023 年集中爆发以来,AI 技术在可感知的 2 年内,就完成了智能驾驶新秩序的建立。
新势力众生相:调整、探索随行
AI 需要的海量高质量数据,车企的智驾竞争,也是交付体量的博弈。国内有能力、心力跟进端到端大模型第一梯队的新势力车企并不多,主要还是集中在了头部。
小鹏汽车算是率先在端到端大模型上拔得头筹的新势力车企。
今年 5 月,小鹏在 AI Day 上宣布国内首个量产端到端大模型上车。整个大模型包括神经网络 XNet、规控大模型XPlanner 以及大语言模型 XBrain,三者融合取代以往主流的「感知-规划-控制」的独立模块逻辑。
XNet 神经网络负责模拟人类视觉,将自动驾驶的感知能力提升 2 倍。何小鹏将 XPlanner 形容为是人类的「小脑」,在海量高质量数据训练下,XPlanner 能够帮助车辆的决策拟人化,减少顿挫、卡死、接管等等情况;而 AI 语言大模型 XBrain 提供大脑般的理解能力,帮助处理复杂、泛化的道路问题。
何小鹏表示:2024 年将投入 35 亿元用于智能研发,小鹏汽车的端到端大模型可以实现 2 天 1 迭代,18 个月就能够将智驾能力提升 30 倍。今年第三季度,小鹏预计将会实现「全国都能开,每条路都能开」的智驾体验。
延续何小鹏输出 FSD 体验报告的热度,昨夜小鹏汽车自动驾驶负责人李力耘,再次在微博上发声,他称:
目前行业所说的「全国都能开」,一种是白名单式,支队城市内部分白名单道路开放,或只招募部分满足一定门槛的白名单用户;另一种是黑名单式,出了部分特定场景不能开,其余全国所有路都能开。
小鹏 XNGP 就是后者之一,今年 7 月小鹏汽车也将全量推送「黑名单式」的全国都能开。
国内首款端到端首发,加速了行业入局布置的速度,而在新技术的探索中,也伴随着动荡的调整。
小鹏正为端到端技术的到来,更积极地调整智驾团队的架构,据 36 氪汽车报道消息称:小鹏汽车在智驾部门下成立了 AI 部门,针对性推进端到端等技术。
图片来自微博@XP-李力耘
几乎是在同一时期,理想汽车开启了新一轮的裁员计划,整体优化比例超过 18%。在其发布 2023 年财报详情中,理想汽车的员工总数超过 3.16 万人,在此优化占比下,预计超过 5600 人受到影响波及。
受到最大影响的是 HR 招聘部、销售运营部以及智能驾驶部门,其中,理想汽车的智能驾驶团队规模已经缩减至 1000 人以内。
智驾团队震荡精简,理想却没有停止对端到端大模型开发的推进。在 2024 年中国汽车重庆论坛上,李想谈起了自动驾驶,他称:
从去年 9 月开始,理想内部就在思考一个问题,并专门组建了一个专门用于自动驾驶的团队。
有个最简单的问题,人为什么开车不需要学习各种极端情况?如果不能解决这个问题,所有自动驾驶团队每天干的活就是通过人工去调试各种极端情况,这离自动驾驶的实现就会越来越遥远,人类开车与以往自动驾驶的开发方式有着根本的不同。
今天很多自动驾驶团队都在做「端到端」,完整的训练频段放进来,从输入直接到输出,相比过往的独立模块效率要高了不少,但挑战是难适应人类规则。
挑战有三:专做端到端数据训练的人才,真正高质量的数据以及足够多的算力。
以此为理念,理想团队对「双系统」技术路线有了更多探索。
理想团队从丹尼尔·卡尼曼的著作《思考,快与慢》中获得灵感,人类快思考占据了日常大脑 95%的工作,而逻辑严密、缓慢的思考工作则约为 5%。
人在驾驶时,近乎 95%的动作是肌肉记忆,精力花费不多,只有碰到紧急情况下才需要观察路面,思考给出下一步决策。
自动驾驶系统同样如此,端到端为快思考系统,足以处理正常的自动驾驶,而理想引入了视觉语言大模型 VLM 作为慢系统,增强兜底及泛化能力,负责解决复杂的长尾问题。
AD Max3.0 目前拥有 2 颗 OrinX 芯片,而理想的核心思路是,一颗 OrinX 用于端到端模型的布置,另一颗则被用在了 VLM 运行上,两颗 OrinX 芯片的算力用得刚刚好。
端到端模型能够理解,那 VLM 又为何物?
VLM 模型是 Vision-Language Model 的缩写,即视觉语言模型,这种模型既会看画面,也会用语言描述看到的事物,进而完成思考,这与人类处理紧急情况的逻辑是高度相似的。
端到端、VLM 两套系统上车,两套大模型同时开跑,端到端快系统的推理速度为 10Hz,而慢系统则为 1-2Hz,快慢系统并行运行,遇到复杂路况情况下,VLM 会进行更慢更深层次的逻辑推理,并及时为快系统传达信号,起到准确的介入干涉作用。
VLM 就好比是具备成长性端到端模型的实时老师,理想将此拆分为快慢系统的好处是:降低了自动驾驶技术的开发难度,加快了技术上车。
李想进一步表示,理想汽车将在今年的第三季度推送无图 NOA,并向测试用户推送基于 300 万 Clips 训练后的端到端+VLM 版本。
与此同时,李想还对更高级的自动驾驶做出了研判:有监督的 L3 级自动驾驶最快今年年底,最晚明年年初实现,3 年内可以实现无监督的 L4 自动驾驶。
步入调整的还有蔚来。
上周,晚点 Auto 曾发布独家消息称:蔚来的智驾研发部完成了架构调整,此前蔚来智能驾驶研发部份为感知、规控以及集成等部分。调整后,感知和规控团队将合并为大模型团队,继承团队重组为交付团队。
放弃过往「感知-决策-规控」的开发思路,调整架构的蔚来也正在推进端到端大模型的开发探索。
搭载端到端架构的 FSD v12,已经开始在北美大规模推送。在特斯拉 FSD 落地中国的微妙前夜,新势力们正摸着特斯拉的「石头」,抢滩国内端到端高阶智驾。