近期马斯克在社交媒体上透露,特斯拉将会在8月8日正式推出无人驾驶出租车RoboTaxi服务。RoboTaxi结合了自动驾驶技术与共享出行概念,这是一种无人驾驶车辆,允许乘客通过手机应用程序召唤一辆自动驾驶的车辆,无需司机操控即可到达目的地。埃隆·马斯克传认为,自动驾驶车辆不但能够将人们从繁重的驾驶工作中解放出来,同时它们在很大程度上将消除人类对车辆的需求。
当然,要想实现如此智能的服务,离不开特斯拉独有的自动驾驶系统FSD。而就在他官宣RoboTaxi之前两个小时,X上的“Tesla AI”官方账号宣布,全自动驾驶FSD累计行驶里程超过了10亿英里(约16亿公里)。另外,在几周前,特斯拉FSD发布海外的最新版本,FSD(Supervised)12.3.3。

FSD(Supervised)12.3.3
目前,该版本的FSD功能设置里这么描述自己:在您的监督下,FSD(Supervised)系统几乎可以在任何地方驾驶您的特斯拉。它可以变换车道、选择岔路口以跟随您的导航路线、绕过其他车辆和物体并进行左转和右转。使用该功能时,驾驶员必须格外小心,并保持注意力高度集中。它并不能使您的车辆实现自动驾驶。切勿掉以轻心。
纵观FSD的发展史,特斯拉从2013年开始研发自动驾驶系统(Auto pilot system)。次年2014年推出HW1.0,后续约2-4年更新一次(14年HW1.0,16年HW2.0,19年HW3.0,23年HW4.0)。可以明显看到,FSD的迭代速度非非常快。

特斯拉智能驾驶发展史
2014年10月,从概念到实际发布,仅用了不到一年的时间,特斯拉便发布了Autopilot Hardware 1.0(简称HW 1.0)。HW 1.0的发布开启了特斯拉将自动驾驶技术带入了汽车行业的新纪元。HW 1.0套件所使用的传感器和计算平台包括:1个前置单目摄像头、1个毫米波雷达、12个超声波传感器、Mobileye EyeQ3计算平台。作为早期阶段的自动驾驶项目,特斯拉的Autopilot和Google的Firefly在传感器配置和技术路线存在显著差异。最大的区别在于特斯拉选择的是纯视觉路线,而不是激光雷达。而Google Firefly则采用了激光雷达。这一区别主要源于于马斯克的“第一性原理”,他认为人类能够通过眼睛和大脑驾驶汽车,因此给汽车配置视觉设备和运算系统就能实现自动驾驶。
在2016年初,特斯拉启动了其全自动驾驶技术平台FSD(全自动驾驶)的内部研发项目。随后的同年10月,特斯拉发布了Autopilot Hardware 2.0版本(简称HW 2.0),相比之前的HW 1.0版本,HW 2.0经历了根本性的升级和改进。最显著的区别在于,HW 1.0版本只装备了一前一后两个摄像头,而HW 2.0则配备了八个摄像头,实现了对车辆周围360度全方位的视觉探测。这一改进极大地增强了系统对车辆周边环境和情况的理解和感知能力。特斯拉在推出HW 2.0后宣布,这一硬件系统已经具备了实现完全无人驾驶的能力,同时也明确了其自动驾驶技术的发展方向——依靠视觉感知来实现自动驾驶。
在2019年3月,特斯拉引领其Autopilot硬件进入了一个新的时代——3.0版本,首先在Model S和Model X车型上实现了量产,并于一个月后扩展到Model 3车型。这一版本的核心亮点是特斯拉采用了自主研发的FSD(全自动驾驶)芯片。这款芯片的引入,旨在为特斯拉车辆提供更加强大的计算性能,以支持更为复杂的自动驾驶功能。在同年4月22日,特斯拉举办了“自动驾驶AI Day”活动,正式推出了搭载这款自研FSD芯片的全自动驾驶计算平台。这个平台的目标是为特斯拉车辆提供足够的计算能力,以便它们能够实现更加先进的自动驾驶功能。
2020年8月,伊隆·马斯克在推特上宣布,特斯拉的Autopilot开发团队正在对软件的底层代码进行一次彻底的重写,同时也在重构深度神经网络。此外,特斯拉还在开发一种全新的训练计算机——Dojo,以推动自动驾驶技术的发展。而最引人注目的是,特斯拉引入了BEV+Transformer架构,标志着特斯拉自动驾驶技术的进入到了大模型时代。
2021年,特斯拉正式发布 FSD Beta 版。2024年3月31日,特斯拉向美国部分用户推送FSD V12(Supervised)版本。值得注意的是,这个版本的软件名称首次去除了“Beta”字样,改为“FSD (Supervised) v12.3.3”。特斯拉自动驾驶软件FSD告别了长达3年半的Beta阶段,正式进入了Supervised(有监督)时代。

我们在通过下面这张图来直观感受一下特斯拉FSD的进化速度。这是一位X上的用户做的关于特斯拉FSD进度跟踪调查,主要涉及comfort(舒适性)、common safety critical(常见安全)、less frequent safety critical(不常见安全)、follow the law(遵守法律)、robotaxi specific等科目。可以明显看到,特斯拉经过仅一年多左右时间的迭代,在舒适性这一环节下的测试评分,从一开始的绝大部份时间不成功,到最新的FSD 12.3的版本可以在绝大部分时间成功完成,进步显著。同时,在其他科目也有不同程度的进步。仅仅一年多的时间,特斯拉FSD的整体评分从3.62分增长至6.54分,迭代速度只能用夸张两个字来形容。

那么特斯拉FSD是如何实现自动驾驶?
特斯拉FSD的核心在于其主要依赖于摄像头而不是传统的激光雷达(Lidar),这是一个重大的行业区别。特斯拉采用8路摄像头纯视觉自动驾驶方案,这种方法依靠先进的神经网络进行图像处理和解释,实现对环境的精确识别。

用一句话概括就是,特斯拉FSD为一套包含感知/规控/执行的全链路自动驾驶软硬件架构。具体如下图所示:

资料来源:TESLA 2022 AI day,德邦研究所
上述图中重要名词解释如下:
规划(Planning):本质是解决多物体关联路径规划问题,处理自我和所有对象的行进轨迹,指导汽车完成相应的执行动作神经网络(Neural Networks):通过分析视频流等信息,输出完整的运动学状态(位置/速度/加速度/颠簸)控制车辆训练数据(Training Data):通过最新的4D自动标注技术、升级模拟仿真及云端计算资源,形成数据闭环训练基础设施(Training Infra):包括CPU、GPU、神经网络加速器单元(Neural Network Accelerator)、AI编译器等,其中AI编译器能够支持神经网络所需的新操作,将它们映射到最佳的底层硬件资源AI编译与推理(AI Compiler & Inference):即如何在计算机上运行神经网络。当前的推理引擎能够将单个神经网络的执行分配到两个独立的芯片系统上执行,可以理解为有两台独立的计算机在同一台自动驾驶计算机内相互连接基于强大的硬件平台和软硬优秀的结合,通过数据标注、仿真模拟以及数据引擎不断进行数据训练,形成数据闭环。而后,通过Neural Network 来有效优化障碍物识别问题,解决“我周围有什么,是如何分布?“和“周围的物体下一步去哪里”的问题,智能感知不再局限于固定形状的识别,而是能够精准识别并理解物体的实际体积。最终,基于感知网络输出的结果,通过规划汽车行为和行车路径使得汽车达到指定目的地,同时尽可能确保行车安全性、效率性和舒适性。

特斯拉FSD标志着世界上首个端到端AI自动驾驶技术的诞生。传统的自动驾驶系统设计中,感知端通过各种传感器如摄像头、雷达和激光雷达来收集环境信息,并识别道路、车辆、行人和交通标志等关键元素。然后,规划端基于感知层收集到的数据来制定行驶路径和决策。最后,控制端根据规划层的输出执行实际操作,比如调节速度和转向。
在这种传统模式下,车辆依靠传感器来感知环境和障碍物,并按照预先编写的规则进行自动驾驶。这种方法的一个主要局限性是,道路条件极其复杂多变,工程师无法预设所有可能的行驶规则。面对规则之外的情况时,系统可能无法作出正确反应。随着智能驾驶应用范围的不断扩大,基于规则的系统限制将越来越明显。

特斯拉通过其端到端大模型彻底改变了自动驾驶技术的架构,打破了传统自动驾驶系统中模块化的边界。在这个全新的神经网络架构下,车辆从原始的传感器数据开始,通过深度学习算法的处理,直接生成车辆的控制指令,包括转向角度、制动力以及加速度等。这种方法的优势在于,它大大减少了信息在各个模块之间传递的延迟和误差的累积,从而使得自动驾驶系统能以更快的响应速度和更高的准确率作出反应,同时简化了系统的结构,便于进行整体的优化和训练。
在特斯拉FSD V12版本中,这种架构允许神经网络取代了传统的规则编写方式。特斯拉向AI模型输入了大量的真实场景数据以及优秀的驾驶行为数据,使得车辆能够在行驶过程中,通过其传感器收集环境信息,并让AI模型自动处理这些信息,最终直接输出控制指令,例如设定行驶速度和确定方向盘的转向角度。
通过直接从输入(传感器数据)到输出(驾驶决策和操作)的学习和执行过程,这种方法能够更好地适应复杂多变的道路条件和未预见的驾驶场景。

上面向大家介绍了特斯拉独特的纯视觉自动驾驶方案,这时候肯定有人好奇,为什么国内的头部自动驾驶厂家没有学习特斯拉的纯视觉方案,而是采用了看起来「成本稍高」的激光雷达融合方案呢?
讲道理这里,首先跟大家简单介绍和对比一下特斯拉和国内头部厂家在自动驾驶方案。
特斯拉FSD
华为等国内头部厂家
自动驾驶方案
纯视觉解决方案,仅仅依靠几个摄像头采集视频数据,依靠强大的算力芯片和领先的算法进行数据处理,实现自动驾驶。
采用激光雷达和视觉融合方案。依靠激光雷达采集数据,并通过算力芯片和算法进行数据处理,实现自动驾驶。
成本
成本低。由于数据采集设备仅仅依靠几个高清摄像头,对整车造价的抬升不会太明显。
成本高。使用激光雷达作为数据采集设备,会大大推高车辆制造成本,短时间内很难与纯视觉方案在成本上抗衡。且激光雷达和视觉双线采集,需要进行数据融合处理,对算力、算法、数据收集同样有很高的要求,需要长时间投入研发和实验。
迭代速度
迭代速度快。由于硬件比较简单,规格比较一致,核心能力来自于软件,所以很容易实现迭代升级,这大大提升了车辆的价值延续性。
迭代难度较大。由于不同年份生产的车型,配置的硬件差异很大。软件的版本维护成本会很高昂,老旧车型的迭代升级会越来越困难,使得车辆的价值延续性受到影响。
反应速度
反应速度快。摄像头的数据采样率一般超过每秒30次,理论上说只要算力能跟上,它的反应速度时间下限是0.03秒。对于突发快速出现的障碍物反应很快。
反应速度较慢。激光雷达的采样速率一般只能达到每秒10次左右,它的反应速度下限为0.1秒,理论上不如视觉方式快。
天花板
天花板较低。通过纯视觉方式采集数据,在最大程度模拟了人眼能力的同时,也继承了人眼的局限性。当车辆位于逆光,夜间,雨雾,道路标线和侧面标识物不清晰,或道路情况复杂的场景时,纯视觉方式会碰到难以逾越的障碍和算力瓶颈。换句话讲,这套方案的上限是无限逼近于人类视觉驾驶的水平,但无法超越人类视觉驾驶的水平。
天花板较高。通过激光雷达采集环境数据,可以突破视觉限制。无论是白天黑夜,雨雾还是扬尘,都不太影响激光雷达的工作。且激光雷达采集的数据自带距离矢量,无需芯片二次计算,对芯片算力和算法的要求相对也较低。从理论上说,激光雷达方案不断演进之后,最终可以突破人类驾驶的水平,甚至可以实现黑灯驾驶。是通向L4级别自动驾驶的正确路线。
在过去的一段时间内,国内的汽车制造商一直在努力跟随特斯拉在自动驾驶技术路线上的步伐。从最初的卷积神经网络(CNN),到BEV+Transformer架构,再到占优的网络算法,每当特斯拉在技术发展上实现突破,国内的厂商总是努力尽快地跟进。然而,复制特斯拉的技术成就并非易事,因为这些技术的门槛和壁垒极为高昂。但随着最新的FSD版本落地,国内厂商与特斯拉之间的技术差距可能会进一步加大。
特斯拉FSD通过其先发优势,建立“数据、算力、算法”的竞争壁垒。而这三个壁垒的背后是各种研发服务和资源投入,还有大量被忽视的隐性成本,包括算法、路测、云计算、数据标注、仿真训练和系统软件等。

特斯拉的自动驾驶算法是业内公认能力最强、投入最大、研发最早的。截至目前,特斯拉 FSD 累积行驶里程已超 5 亿英里,Autopilot 使用里程已经超过 90 亿英里。同时,特斯拉的自动驾驶系统每天可以接收到车队回传的 1600 亿帧视频数据,支持神经网络训练。
其次,特斯拉拥有庞大的用户群。特斯拉2022年交付超过130万辆,2023年交付约180万辆。随着FSD推送地区及推送用户的增多,特斯拉拥有的行驶数据会呈指数级上涨。由于车辆保有量及智能驾驶推送进度的不同,在数据量上,国内厂商的追赶难度不算太小。
另外,特斯拉的影子模式加速数据的采集。影子模式支持量产车上运行并采集数据,等同于将卖出的每一辆车都化身为“数采车”,充分发挥量产车覆盖场景广、成本低的优势。

在2022年的特斯拉AI DAY上,马斯克宣布,特斯拉已经建立了一个超级算力中心,拥有超过14000颗GPU,为其自动驾驶技术的开发提供了强大的计算支持。到了2023年8月,特斯拉进一步扩大了其计算能力,启动了一个包含10000颗H100 GPU的新训练集群。这种新型GPU的计算效率是前代A100的五倍,尽管它的价格相当高昂,每颗价格接近40000美元,而且其后期的维护成本将远远超过硬件的初期投资。
与此同时,国内汽车制造商小鹏汽车也在加强其计算能力。小鹏利用阿里云建立的“扶摇”智能计算平台,其算力达到了600PFLOPS,即每秒可以进行60亿亿次浮点运算。相比之下,到了2022年,特斯拉的算力中心已经实现了2 EFLOPS的运算能力,即每秒200亿亿次浮点运算。随着特斯拉自研的Dojo算力平台未来的投入使用,特斯拉的计算能力预计将进一步增强,从而在自动驾驶技术的开发和训练方面拥有更加强大的支持。
特斯拉与国内厂商训练平台算力对比
特斯拉
国内厂家
特斯拉2022年训练平台算力规模为2 EFLOPS。
特斯拉与2023年7月开始投产Dojo,目标在2024年初成为全球规模最大的5台超级计算机之一,并在2024年10月总算力达到100 EFLOPS (约30万个A100的算力)。
华为:2023年9月问界M7发布会上披露ADS 2.0训练平台算力为1.8 EFLOPS。
蔚来:2023年9月披露蔚来智算集群总算力规模为1.4 EFLOPS。
小鹏:2022年8月基于阿里云建立自动驾驶智算中心“扶摇”,算力规模为0.6 EFLOPS。
理想:2023年6月,披露理想训练平台算力规模为1.2 EFLOPS。
马斯克曾公开表示,2023年,特斯拉花在扩大训练运算算力的预算就超过20亿美元,并表示2024年会采取同样的行动。而国内方面,2023年上半年蔚来的研发投入为64.2亿元,小鹏则为26.63亿元。相比特斯拉一年20亿美元的算力投入,国内厂商在财力上也很难望其项背。
第三个,算法。在2021年,特斯拉采纳了BEV (鸟瞰图) + Transformer的技术路径,这一创新使得它能够成功地将来自多个2D图像和传感器的信息融合为一个三维向量空间。这种方法为实现更为全面的环境感知开辟了新途径。在广泛采用BEV之前,业界通常使用“2D直视图+CNN(卷积神经网络)”的方案。在这种方案中,相机捕获的2D图像和雷达收集的3D信息被用来形成基于各个传感器位置的放射性图像。然后,不同的感知结果会通过CNN进行融合,并通过复杂的计算过程统一提升到三维空间,以形成适合三维环境中车辆导航的坐标系。然而,这种方法并未有效融入时间维度,同时在感知与预测的连续性方面也存在挑战。

BEV (Bird's Eye View) 技术,通过采用鸟瞰图的视角或坐标系,实现了将视觉信息从图像空间直接端到端转换到BEV空间的能力。与此同时,Transformer技术通过采用交叉注意力机制,与传统的神经网络(如CNN)相比,能够实现2D与3D信息序列间的直接转换。这种技术能够在空间和时间序列上进行更加全面的建模,创建出融合时间维度的4D空间信息。因此,通过这种方式处理的感知结果在连续性和稳定性方面得到了显著的提升。

Telsa BEV+Transformer架构
特斯拉的FSD V12版本标志着智能驾驶技术正式进入了端到端3.0时代。这一成就得益于其庞大的计算力和丰富的数据基础。对于国内汽车制造商而言,要达到这样的技术水平既是一个巨大的挑战,也需要巨额的投入。尽管智能驾驶技术的发展是不容忽视的,国内制造商为了不被特斯拉拉开距离,必须在后续的竞争中寻找和发展属于自己的路径。
我们再次回到文章开头所提到的robotaxi,未来如果有一辆招之即来挥之即去的无人驾驶车辆,能够带你去任何你想去的地方,且成本相比现有的人工打车更低。届时,你还会想买车吗?