易车原创 没有媒体连线,没有平台拉流,特斯拉的老板马斯克就全程举着自己的手机,开启了一场关于特斯拉FSD Beta V12的直播测试,时长45分钟,画质还很渣,却吸引了全球百万人观看。随后就是网络上铺天盖地的报道和惊叹:看,马斯克又整了个大活!说FSD V12就是汽车的DriveGPT,它对自动驾驶领域的冲击,就像当初的特斯拉杀入新能源汽车领域,是一件颠覆行业的事情。
先来看看这场直播放了些什么
当地时间8月26日,马斯克驾驶着老款Model S ( 参数 | 询价 | 图片 ) ,硬件是基于HW3.0的版本,但软件是未正式发布的新版FSD V12,从特斯拉总部出发,随机输入了第一个目的地——斯坦福。
然后马老板全程充当安全员的角色,让车辆自动行驶,经过了施工路段,在交叉路口等红绿灯,左转,被右侧的自行车超车,甚至在人多的区域还礼让了行人……
这期间全程都是车辆自主行驶,马老板只是举着手机直播,一路平稳抵达导航目的地。
然后第二段行程是从斯坦福到扎克伯格家,但并没有找到正主,马斯克也说了,“小扎在这片地区有8000多处房产,要真找到他了我就该向他挑战(铁笼格斗)了”。
然后是前往第三目的地Palo Alto,最后车辆到达指定地方后,FSD V12还来了一把自动停车,完美停到了路边。
全程直播45分钟,FSD V12运行平稳,对道路上的各种情况,甚至减速带,都能顺利做出应对。全程唯一一次失误发生在直播19分50秒时,Model S在路口停车等待直行绿灯,但对面左转灯变绿时,Model S直接启动差点闯红灯。当然,马老板紧急干预了车辆制动,这也是全程唯一一次干预车辆驾驶。
当然,仅仅看到这些,你可能觉得也就那样,毕竟国内小鹏的城市NGP,理想的城市NOA等,都可以做到一些城市的端对端辅助驾驶了,包括自动超车、识别红绿灯来通过十字路口,跨线绕行障碍物等,甚至在地库自己找车位。
所以,为何大家会如此神吹特斯拉的FSD V12?
用几个词概括其特点就是:神经网络去代码化、纯视觉方案去激光雷达、不联网去云计算化、更看重数据质量。
马斯克在直播中表示,FSD Beta V12是有史以来第一个端到端AI自动驾驶系统(Full AI End-to-End),从头到尾都是通过AI实现。我们没有编程,没有程序员写一行代码来识别道路、行人等概念,全部交给了神经网络自己思考。
简单理解就是,V12更像一个人类的大脑,99%的决策都是由神经网络给出的,不需要高精地图、不需要激光雷达,仅仅依靠车身的摄像头视觉输入,就能分析思考,输出控制策略。再给它一个GPS坐标,它就能根据GPS定位信号找过去。
而目前的其他辅助驾驶,如小鹏XNGP,虽然去高精地图了,但还是要依赖激光雷达,而且需要你用代码去编写每一条规则,比如遇到了行人、红绿灯、环形交叉路口该如何处理,一旦代码没有写到的,它就无法主动做出正确应对。
另外,V12所拥有的超强能力,是经过巨量的视频数据,1万颗H100(针对大模型专门优化过的芯片,GPT-5用了5万颗H100训练)GPU训练集群加持下完成的。
简而言之,V12是通过大量的视频训练数据来实现这一目标。就像一个小孩子,看了大量的动画片就能慢慢增长知识。
FSD AI现在只输入大量视频,以便识别在不同情况下需要做什么,而不是对每个道路元素或情况进行单独编码。
这也使得V12的系统也更精简,只需要一个AI程序,而不是各种感知、计算、控制系统的糅合体。马斯克表示,V12的C++代码只有2000行,而V11有30万行。
另外V12的推理计算功率约为100W,且所有推理无需网络连接,在本地进行。这一点就很棒,要知道,现在很多辅助驾驶系统,是要借助云端超算中心的算力的,如果没有互联网连接,你就无法启动高阶辅助驾驶,但FSD V12不需要时刻联网,它是真的独立个体AI。
关于FSD V12的思考
其实说了这么多,就是想告诉你,FSD V12是可以被看做为未来AI代驾的雏形的,而你现在用的辅助驾驶就真的只是一个依靠代码规则运行的系统。
所以这就衍生出了针对AI代驾的另一个思考,那就是它会有自己的想法怎么办?
直播演示中,马斯克也提到了对于通过AI训练视频数据来实现自动驾驶这个方向可能面对的挑战。
例如没有代码是不是意味着它逻辑不可控,就像没有受过良好教育的孩子会长歪一样。
所以,训练视频的质量非常重要,V12需要一个好老师,只能用优秀司机的驾驶视频来训练,而不能用技术不好的司机的数据,一个马路杀手司机就会训练出来一个马路杀手AI代驾。
据说特斯拉正在纽约州的“水牛城”布法罗寻找一些“五星级Uber司机”的行为数据喂给V12。
基于好数据建立AI模型,然后将这些模型以“影子模式”(shadow mode)传送到系统上,当每次系统与用户所做的选择不一致时,特斯拉就会得到数据反馈,这比仅仅收集随机数据更有价值。
还有另一个问题是如何应对低能见度的驾驶条件,因为特斯拉所在总部加州从不下雨,能见度高。但如果是像中国西部一天经历四季的地区,经常有团雾或雨雪等视线受阻的情况下,AI驾驶会如何处理?这也需要学习。
所以FSD V12需要世界各地各种天气条件的驾驶视频来进行训练,目前特斯拉也在全球都布置了驾驶训练人员。
自动驾驶换赛道 国内厂商跟不跟?
犹记得几年前还有一些专门做自动驾驶排名的网站,那时候特斯拉总是垫底,而通用和百度一直是优等生。但才几年过去,就出现了两极反转,特斯拉已经是自动驾驶领域的大哥级人物。
而国内厂商也一直在追赶特斯拉的脚步,只是这一次FSD V12的出现,神经网络取代代码规则,好比换了一个赛道,将智能驾驶正式带入端到端的AI时代,这是依靠庞大算力和数据铺下的路。而国内厂商基本还在BEV+Transformer时代,要追赶起来难度不小。
原因有很多,例如特斯拉正越来越走向苹果的运作模式,那就是高度自研。特斯拉自研的HW3.0是第一款完全出自车企的自动驾驶硬件解决方案,目前已经进化到了3.5及4.0时代。
自研硬件的一大好处就是利用率高,能大幅降低FSD的硬件成本;其次是开发自由度高,能够更好匹配特斯拉很多创新的算法与其他技术方案。
这方面国内厂商均是采用外购芯片方案,在适配度及利用率上,都与特斯拉自研硬件有着不小的差距,就如同安卓系统与苹果系统。
另外AI模型接受数据训练,是建立在算力基础上的,这又是特斯拉的强项。目前国内小鹏基于阿里云打造的“扶摇”智能计算平台,算力也只有600PFLOPS(每秒浮点运算60亿亿次)。而2022年特斯拉算力中心的算力已经达到了2EFLOPS(每秒浮点运算200亿亿次)。未来,自研算力平台Dojo投入使用后,特斯拉的算力还将再上一个台阶。
马斯克认为,长远来看,未来人类会成为强计算依赖的文明,有80%-90%的能源消耗在计算之上。所以算力也是特斯拉的重点投入部分,仅2023年,特斯拉花在扩大训练运算算力的预算就超过20亿美元,国内厂商在财力上也很难望其项背。
所以特斯拉的纯视觉+神经网络算法,国内车企不一定能学得来。要我说,国内的智能化基建是领先国外的,比如很多城市的红绿灯已经接入网络,导航就能看到读秒时间。在这种情况下,或许激光雷达+V2X车路协同也不错,技术路线不同,结果是一样的,短期内只是实现端到端还是很容易的。你觉得呢?