智驾「新欢」端到端,急不来

高工智能汽车 2024-07-02 11:25:49

端到端搅局,自动驾驶的商业化分水岭正在显现。

前不久有消息称,通用汽车公司将向其自动驾驶汽车子公司Cruise注资8.5亿美元,以使Cruise的运营持续到明年第一季度,同时该公司也将考虑Cruise下一步的战略和资金安排。

本月的一场会议上,通用汽车首席财务官Paul Jacobson则表示,Cruise正处于非常重要的研发阶段,不仅仅是因为其自动驾驶出租车概念,更是为了实现个人自动驾驶出行。

自去年10月,一辆Cruise的自动驾驶出租车,撞伤并拖拽了一名女性数米远,被吊销了运营无人驾驶汽车的许可证。作为Cruise的母公司,通用汽车暂停了所有自动驾驶出租车的运营。

可见,历经撞消防车、阻挡救护车、集体熄火导致交通阻塞等风波,通用汽车仍继续押注Robotaxi。Cruise不仅获得母公司追加投资,还重启了在美国凤凰城和达拉斯地区的自动驾驶汽车测试,并增加了在休斯顿的测试。

与此前自动驾驶频频遇冷,牵动全行业商业化进度有所不同,端到端等新技术路线的搅局,似乎正在拉开玩家们的商业化差距,烧钱多年的通用汽车和Cruise不得不急。

比如,另一家自动驾驶公司Wayve,不仅实现了在伦敦市中心的自动驾驶,还拿下了软银、英伟达和微软等投资的10.5亿美元C轮融资。

而Wayve的上述成就,本质上得益于其新升级的自动驾驶模型架构,包括四个主要模型:端到端深度学习系统(AV2.0)、Fleet Learning Loop、LINGO模型以及GAIA-1世界模型。

这也意味着,除特斯拉之外,包括Wayve在内的更多玩家,已经初步验证了端到端自动驾驶的可行性,推翻了依赖代码不断改进规则算法,有望打破无穷的长尾场景僵局。

未来通过大量有价值的数据训练系统,结合可解释的传统技术栈或模型,端到端有望提高车端的“智力”水平,使系统驾驶技术达到人类老司机水平,更好地处理复杂的驾驶任务。

目前来看,在自动驾驶或高阶智驾领域,端到端的作用已经显现,并逐渐成为行业共识,具体表现在不少车企、智驾Tier 1们在感知端、决策端已有技术演示和应用。

01 窗口期来临,同步拉开智驾差距

本质上,用户体验仍然是端到端上车的主驱力,竞争焦点主要为两点:一是解决长尾场景,提升整个系统的安全性;二是实现驾驶风格的拟人化,尤其是动态博弈路/车况下。

比如,随着端到端的加速落地,功能聚焦、拥有更高性能上限、更接近人类驾驶行为的城市NOA,将带动高阶智驾能力迎来新一轮比拼。

对比规则驱动的传统分模块方案,决策层泛化能力差,无法应对未曾编码过的长尾场景,而数据驱动的端到端决策泛化能力强,尤其是对复杂场景的应对能力,有着更高的天花板。

而上述天花板,很大程度由算力和数据决定。

这也将驱动新一轮的最佳计算平台方案竞争,包括算力、对智驾大模型的支持等,进而支持更大的缓存带宽、支持端到端的定制化算子等。

比如,地平线早在2016年便率先提出了自动驾驶端到端的演进理念,2022年提出行业领先的自动驾驶感知端到端算法 Sparse4D;2023年,由地平线学者一作的业界首个公开发表的端到端自动驾驶大模型UniAD,荣获CVPR 2023最佳论文。

与此同时,地平线积累的基于交互博弈的端到端深度学习算法,大幅提升智驾系统在复杂交通环境中的通行效率和成功率。

面向端到端的量产应用,在硬件技术上,地平线专为大参数Transformer而生的新一代智能计算架构 BPU 纳什,能够以高度的软硬协同打造业界领先的计算效率,为自动驾驶端到端和交互博弈提供智能计算最优解。

地平线的端到端技术也已投入产品应用,今年4月份,地平线发布基于征程6P的高阶城区SuperDrive方案,可依靠动态、静态、OCC占用网格三网合一的端到端感知架构,以及数据驱动的交互式博弈算法,做到在任何道路环境下兼顾场景通过率、通行效率和行为拟人。

基于此架构,SuperDrive的遮挡准召率可提升70%,动态代码行数降低90%,网络负载降低50%,能够支持算法供应商做高效迭代,持续提升用户体验,预计2025年实现量产。

地平线认为,端到端是手段而非目的,体验拟人、计算高效、交付敏捷三者缺一不可。通过提供灵活开放的软硬结合全栈技术,地平线将加速推动全行业实现端到端的大规模量产。

不过,即使有相关计算平台支持,自动驾驶的大模型也将拆解成若干个层级进化,包括模型化、端到端,最终实现大模型。其中,模型化方面,头部企业基本完成了感知模型化,但是规控的模型化还未完全做好。

这也意味着,基于原本积累的感知算法基础,规则驱动正在加速转向数据驱动,未来各Tier 1和车企的智驾能力差距将进一步拉大。

比如,鉴智机器人推出的BEVDet,将纯视觉自动驾驶3D感知做到端到端。相比使用Transformer进行image-to-bev投影,BEVDet拥有更优的泛化性能和更少的数据量需求,可大幅度降低对于数据量的需求。

其自动驾驶端到端的最新研发成果GraphAD,采用图模型描述交通场景中复杂交互的端到端自动驾驶算法,对驾驶环境中的交互性元素进行显性建模,使得模型能够更直接、快速的捕捉到相关性信息,显著提升了学习效率和性能。

目前,该模型已成功以实时运行性能部署到量产车载计算平台上。

此外,今年北京车展上,轻舟智航发布了基于地平线征程6打造的轻舟乘风MAX智驾方案,采用端到端的技术架构设计,支持激光雷达接入和轻地图模式,可胜任处理更加复杂的城市场景,打造极致全场景NOA体验。

元戎启行也对外展示了其即将量产的高阶智驾平台DeepRoute IO,以及首款基于DeepRoute IO的解决方案,采用NVIDIA DRIVE Orin系统级芯片,200+TOPS算力,1颗固态激光激光雷达,11颗摄像头,为无高精地图的端到端方案。

有消息称,元戎启行端到端自动驾驶方案已经获得长城汽车的定点项目,并与英伟达开展合作,预计2025年适配英伟达Thor芯片。近日,元戎还与比亚迪达成合作,负责其POC端对端智能驾驶项目。

02 完全端到端,道阻且长

作为自动驾驶的终局,端到端被寄予厚望,但难以一蹴而就。

在地平线算法平台总架构师穆黎森看来,做到完全端到端大模型之前,业界可能会经历一个里程碑,即在感知环节输出相对完整的对周围世界的理解,而后进一步提升数据驱动对规则算法的替代程度。

即在比较坚实的工程量产基础上做系统的快速迭代,一边提升系统的上限,同时也能够把握一些基于规则的基础功能的正确性,保证系统性能的下限。

“端到端的优势在于提升了某些场景的表现上限,但保证系统的性能下限相对困难,业界还需要用产品和体验,证明端到端确实能够带来正向提升。”穆黎森表示,这个过程也会驱动针对端到端的计算方案的发展,为端到端提供最优的计算效率。

可见,基于端到端模型提供更拟人且灵活的处理,原有的模型和规则可以保证安全,未来几年端到端模型和原有模型将在智能驾驶领域相辅相成。

毕竟即使是端到端的标杆特斯拉FSD V12,虽在此前的直播中表现不错,各种场景处理非常丝滑,但也会犯闯红灯、撞到马路牙等低级错误。而在上一代方案中,很少出现此类错误。

事实上,特斯拉也不敢完全依赖端到端。有特斯拉车主从FSD软件包中发现,V12仅适用于城市场景,高速场景还是用V11。

这也意味着持续提升端到端方案的下限,使其表现优于原传统方案,也是一座需要业界征服的里程碑。

而作为端到端的养料和难点,优质数据的搭建和收集也至关重要。

在自动驾驶领域,训练模型需要的数据是与物理世界相关的视频,因此需要模型理解更多物理规则,但也要避免用更多的数据、算力训练更大的模型,陷入智驾能力不升反降的瓶颈。

即使是已经有数百辆车在路上跑的特斯拉,也坦言如今每10000公里的行驶数据,只有1公里能训练模型,且每训练一遍,都需要消耗大量算力。

目前,特斯拉还在开发更强的仿真系统,生成各种数据训练世界模型,以利用视频生成和预测技术理解驾驶场景,并从这些场景中学习驾驶行为和策略,以强化端到端。

但依赖世界模型去长尾场景,可信度仍需提高。

例如,Wayve用于解决自动驾驶长尾问题的模型GAIA-1,去年6月推出GAIA-1早期版本后,就有相关研究人员指出,模型生成的视频中,会有一些元素在后续“突然消失”。

虽然同年10月,Wayve更新了GAIA-1,不仅扩大了参数规模,还增加了训练时长,模型生成视频的细节和分辨率都有明显提升,目前是否完全克服了“元素突然消失”的问题,还有待充分验证。

可见,距离业界完全实现端到端落地还道阻且长,不仅诸多技术难题待解,还极度烧钱。

但基于端到端的广阔前景,资本亦展示出了高涨的热情。去年开始,与端到端相关的智驾Tier1、自动驾驶卡车公司、芯片企业、合成数据商等陆续拿下新一轮融资,亦推高了行业泡沫。

或许在未来的两三年里,历经几轮去泡沫,待寡头效应突显,端到端的格局才更清晰。

0 阅读:34
评论列表
  • 2024-07-02 22:21

    刹车都刹不住的特斯拉?靠高大上的文字,就有技术了?

    xiang 回复:
    欺负外资特斯拉没有跨省能力

高工智能汽车

简介:专注智能汽车产业链的市场研究、媒体会议和投融资服务。