有一场发布会被严重低估了,读懂这场发布会,就读懂了国内智驾行业未来几年的发展方向。这场发布会就是7月5日,理想汽车的2024年智能驾驶夏季发布会。
要想读懂这场发布会,先要理解当下智驾产业的行业格局。
2023年8月,马斯克做了一场自动驾驶的直播,向全世界发布了特斯拉自动驾驶新方案——端到端纯视觉方案。随后,国内主机厂纷纷跟进,开始从传统智驾模型转向端到端大模型。
笔者认为,今天国内智能驾驶行业的非常像1980年代的电子游戏产业,当时,尽管电子游戏产业的玩家创新和想法特别多,但由于内存和存储的制约,所以许多厂商都不得不想尽一切办法调整架构,从而高效利用有限的资源。
同样,今天国内想要实现端到端的主机厂或者智驾供应商,都受制于芯片和算力。
具体来讲,主机厂用来训练端到端算力的最理想值大约是500000000TOPS,车上芯片的算力是5000TOPS,并且对芯片的内存带宽要求也很高,比如要达到几TB/s。而当前主机厂的训练算力,大约只有这个值的几十分之一,车端芯片算力大约只有这个值的十分之一。
尽管相距甚远,但不是不可以追赶,只要主机厂在这几年狠狠砸钱,就能追上。现在的情况是,没有主机厂会干等几年时间,等一切都完善了再发布,如果现在拿不出优秀的智驾产品,那么大概率就会被淘汰,所以今天各个主机厂和智驾供应商就像1985年任天堂开发游戏那样,在资源很紧俏的情况下,把尽量完善的驾驶产品发布出来。
今天除了特斯拉外,还没有出现第二个只使用一个模型实现端到端的主机厂,所以现在也可以称为“过渡阶段”。
没错,理想汽车的智驾方案,就是在这一背景下诞生的。
端到端相比传统智驾模型的优势在哪里?
7月5日,理想汽车举行了2024年智能驾驶夏季发布会,这场发布会的主题就是发布了理想汽车自己的“端到端”模型。在笔者看来,这场发布会代表着智能驾驶行业的一个里程碑式的转变,它意味着国内主机厂已经开始大规模转向“端到端”,与特斯拉的技术差距进一步缩小。
在未来,我们会看到基于端到端的智能驾驶方案,会出现在蔚来、华为、小鹏、比亚迪、长城等等公司的产品中。
在之前的文章《我们在为问界呐喊“遥遥领先”时,特斯拉却正蜕变为一个全新的物种》和《无人驾驶的大饼,建议马斯克还是别画了》中,我们已经介绍了端到端的基本原理,简单来说,就是指一个AI模型只需要输入原始数据,就能输出最终结果,中间不再引入额外的模块做进一步加工。
比如,我们熟悉的ChatGPT就是一个典型的端到端模型,中间只存在一个大语言模型。但这个端到端并不明显地存在障碍,因为输入的是自然语言,输出的还是自然语言,形式没有任何变化。
而模拟人类驾驶的智能驾驶大模型相比之下就是难度极大的任务场景。所以在此之前,传统的智能驾驶的方案是,使用N个模块依次完成感知、规划、控制这三个主要功能。
简单来说是这样的。
首先,感知模块类似于汽车的眼睛,从环境中搜集信息并理解它们都是什么东西,一般会用激光雷达、毫米波雷达、摄像头等硬件输入信息。
其次,等信号进来后,要使用各种类型的神经网络识别出哪个是车道线、哪个是车、哪个是信号灯、哪个是限速牌,然后进一步识别车道线是左转还是右转等等。
再次,把一切可以成为影响行驶因素的元素都要尽可能地识别出来。
最后,把识别出来的各种元素,放到大模型里进一步分类识别,把它们变成一系列动作,比如绕开障碍物,躲避行人,调头、加速度等。
在这些环节中,就是为了完成某个任务,智驾团队需要编写一套规则和每条规则对应的触发条件,比如看到红灯要停;看到行人横穿要停;看到旁边车道的车打转向灯,要么加速超过,要不减速让行。而过一个路口时,背后有30万行代码为车辆兜底。
所以,传统自动驾驶的性能谁好谁差呢?看看他们雇佣的程序员的数量就可以了。这其实是一个劳动力密集型产业,别以为程序员多就是多么高智能的行业,其实更像体力活。雇1000名程序员写规则和各种特例的企业,就会比只雇200个程序员的自动驾驶车企要强。比如,2023年的华为智驾团队就超过7000人,小鹏汽车的智驾团队超过了3000人。
而端到端的智能驾驶出现后会剧烈地改变竞争模式。规控模块不再需要堆案例、堆规则、堆程序员了,这个行业也不再是一个劳动力密集型产业了,而是一个数据和算力密集型产业,程序员数量减少70%是常态。
这就是为什么最近半年大家听说过很多主机厂对智能驾驶部门的程序员大幅裁员,因为真的不需要写那么多代码了。
那为什么端到端可以不用那么多代码了呢?
因为端到端大模型的特点是,自我学习,当训练模型的人可以把无数真实驾驶的视频片段输入到模型,这些片段就在告知模型,人类驾驶员都是怎么开车的。当模型看过无数案例后,它就会自发地总结出无数环境特征与驾驶动作之间的关联。
端到端不但可以提取人在意识层面可以说出口的那些需要关注的部分,还可以提取人们说不出口或者很难描述清楚的、但确实需要注意的驾驶环节。
总结来讲,端到端比传统智驾模型的优势在于:更省力,效果更好,从理论上讲,更能模仿人类驾驶行为。
当然,端到端模型也有缺点,第一就是算力和数据的制约。今天全球只有一家车企的端到端模型是完全按这个思路设计的,就是特斯拉的FSD。马斯克坚信——数据越多,参数越多,最后的驾驶行为就越智能,直到超过人类司机,于是从FSD V12.3之后的版本都只有一个模型,能这么设计,是因为特斯拉的最大优势就是数据和算力,它毕竟是最早大规模收集驾驶数据的公司,所以它的模型见过最丰富的场景。
而国内的主机厂没有特斯拉那么丰富的资源,就只能通过调整架构的方式来达到端到端的效果。
其次,端到端模型是一个黑盒子,我们很难反推一个事故到底是因为哪个参数值设置得不合理导致的。如果一定要从参数值上找责任,那么就要检查几十亿个参数,这是一个几乎不可能完成的任务。
在传统自动驾驶中,如果出现了事故,由于规则是人为编写的,哪个场景有缺陷出了事故,去规则库里找bug就好,马上就能找到对那种场景而言描述不完善的地方,然后补上几条新规则,这个特定场景下的表现立刻就能提高。但端到端的智驾是无法做到这一点的。要提升就是全部能力的提升,不可能针对某一个行为单独做改进。而由于自动驾驶是一个对安全性要求很高的行为,所以对错误的容忍度很低。
理想汽车是如何做架构创新的?
理解了行业大背景和技术创新方向后,我们来看理想汽车的方案,它分别使用了两个模型,分别是系统1和系统2。
系统1就是正常驾驶状态,就像我们平时开畅通无阻的线路时大脑的状态,除了驾驶,还可以听歌,聊天。这样的状态可以占到全部驾驶时间的95%。当然,像是堵车、逆行的电动车,闯红灯的行人出现,也包含在此,系统1处理是不在话下的。
系统2就是应对各种紧急状况时需要特殊处理的操作,还有比如说主路、辅路走错了,这时候也是由系统2辨别出来的,或者前面有交警用手势来指挥车辆,自动驾驶也能识别交警的手势等等。
而端到端模型在理想汽车这里,其实就是系统1,用它来应对绝大多数情况;系统2是通过视觉语言模型来应对极端场景的。
理想汽车安装了两个英伟达OrinX芯片:一个用于系统1,可以提供1/10秒延迟的驾驶轨迹和相应的决策;另外一个应付复杂交通情况的芯片跑系统2,可以提供1/3秒延迟的驾驶轨迹和相应的决策。
好,接下来我们来看系统1和系统2是如何打配合,从而通过最小算力输出最大效果的。
我们先来看系统1,系统1接受到摄像头和激光雷达的信息后,由于算力吃紧,只能把相关内容给更节约算力的卷积神经网络去处理,处理后的结果是一个鸟瞰图,也就是从上往下看车辆和它所处的局部环境的图,然后输送给端到端模型中,系统1中端到端模型的参数量是2亿,而且保证了足够低的延迟,在正常的驾驶情况下,这样的结构既能节约算力,又能保证效果。
我们再来看系统2,系统2的最大作用是处理突发事件的,偷懒的做法是一旦识别出突发情况,直接退出辅助驾驶,让驾驶员接管,但理想汽车会让系统2上场。
系统2里有一个参数规模是系统1十倍的视觉语言大模型,决策能力更强。所谓视觉语言模型,简单理解就是大语言模型的进化版,技术来源是清华大学和理想汽车合作开发的DriveVLM端到端大模型。
同样,为了节约算力,大模型只抓取车前120°角的图像,另外还有一个更加高清的前30°角的摄像头信息被补充进来,用来提高图像的精确度,随后,会把导航信息与之结合起来,输送到视觉语言大模型中,虽然它的决策能力更强,但由于计算压力更大,所以只能以3Hz的频率生成驾驶决策,也就是1秒输出3次。
在这里,读者可能会提问,1秒输出3次够吗?其实哪怕是这个数值,也是大幅优化后的结果了,在工程的角度讲,哪怕再慢1秒,在真实的驾驶情况中,可能已经撞上了。
接下来,我们来看系统1和系统2是如何打配合的。
在行驶过程中,系统1和系统2同时工作,系统1的速度较快、但能力较弱,系统2的速度较慢、但能力较强。最后车听谁的指挥呢?在正常驾驶情况中,听系统1的;在遇到突发情况时,既听系统1,也听系统2的。具体来说,系统1是无法处理复杂的突发情况的,只有系统2才能识别到,然后给出变道、超车、减速的决策,此时系统1也不是不干活,而是给出建议,最终生成系统认为的最优解。
所以,系统2即便慢,也不会干扰系统1的思考,它起到的作用就是修正优化系统1的决策。在这里系统1和系统2之间还存在一个互动的机制,就是能力比较弱的系统1会经常主动向系统2提问。打个比方就是类似于我们向ChatGPT提问一样,比如前面貌似有个电瓶车,我要不要刹车?在这个实际行驶中,理想汽车的二颗OrinX芯片的整体利用率在95%以上。
理想汽车的架构创新到这里就介绍完毕了,在文章的尾声,我们再来谈谈智能驾驶发展的趋势,在未来,决定这个行业进展的有两大因素,那就是算力的进展和大模型应用的创新。
今天,理想汽车开了一个头,试图用构架的创新来突破算力的制约,当然实际效果如何,还得看车主的反馈,但毋庸置疑的是,国内智驾行业的军备竞赛已经拉开了序幕。