本期视频专业性有点高,适合对智能汽车尤其是自动驾驶感兴趣的朋友们。
上一条视频,给大家讲了一下自动驾驶整体上的工作原理,以及上一代自动驾驶系统的工作模式和弊端,便于大家更好地理解这项技术的发展脉络。今天我们聊一聊当下最火的“端到端”、“神经网络算法”、“大语言模型”都是什么意思。
端到端算法架构顾名思义,一端输入原始信息,另一端直接输出行动指令,将整个驾驶行为“融会贯通”,相比上一代的模块化算法架构,中间不再有流水线、半成品和一个个车间,取而代之的是一个整体化的神经网络。
关于神经网络算法的知识过于深奥,这里不做展开,大家可以理解为,它模拟的是人类神经网络的工作原理。想想人脑有多强大,就知道端到端算法架构的优势了,首先它不再是生搬硬套程序员写好的规则,也不需要拿着高精地图按图索骥,而是像人一样,在具备一些基本常识后,就可以通过不断观察和学习,自己提炼应对各种路况的方法,并且越开越好。
其次,由于去掉了信息在流水线上传递的过程,误差和延迟都大幅减少,灵活度大幅提升。这一点从自动驾驶系统的代码量上就能一目了然。马斯克透露,通过使用端到端自动驾驶算法,特斯拉只用2000行代码就代替了原本的30万行代码,系统效率提升了不止一星半点。
此外,感知、预测、规划控制之间不再各自为政,工程师们可以站在自动驾驶整体效果的维度,进行全局优化,杜绝了头痛医头,脚痛医脚的问题。
简单总结一下,端到端算法架构由于采用了像人脑一样的工作模式,不仅给程序员减了负,系统效率、准确性、自动驾驶体验的人性化程度,也都得到了大幅优化。未来想要普及真正意义上的高阶自动驾驶,甚至是无人驾驶,必须依靠端到端算法。所以现在整个汽车行业都在从模块化架构向端到端架构过渡。
但即便大家都叫端到端,层次也是有差别的。最初级的水平,叫显式端到端,是将原有的算法模块以神经网络拼接起来,看图就知道了,相当于缝缝补补,好处是简单、省事,还能有一定改进效果。
更高一级的端到端算法叫隐式端到端,一般采用视觉或者多模态的感知信息作为输入,算法模型直接输出控制或者轨迹信号,没有中间环节。这种就是标准的端到端架构了。
此外,还有基于大语言模型的端到端架构。关于大语言模型,现在最火的就是ChatGPT,它能够理解人类的自然语义,并且通过学习互联网的海量数据,对我们提出的问题给出优质反馈。
正是因为大语言模型拥有强大的认知能力,所以越来越多的被应用于驾驶场景。尤其是大语言模型可以和驾驶员对话,理解我们的想法,因此可以增强自动驾驶给人的安全感。有观点认为大语言模型是最先进的端到端架构,因为它是一种通用的人工智能,可以解决所有问题,但目前大语言模型刚刚起步,更多应用于座舱系统。
好了,理论知识讲的差不多了,接下来大家肯定会问,究竟谁家的自动驾驶能力更强?为什么落到实际使用中,各家感觉都是半斤八两呢?下一期视频我们接着说。