AI行业专题:从特斯拉FSD看人工智能

含双聊军事 2023-08-04 12:47:00

(报告出品方/作者:西南证券,王湘杰)

1 人工智能助力自动驾驶,端到端方案成为新路径

行业趋势:以自动驾驶技术为驱动,迈向规模化量产

从智能驾驶的发展趋势来看:行业的上半场以电动化为主,核心驱动力与能源电池紧密相关,技术方向主要为辅助 驾驶,市场主要关注技术的验证和特定场景的落地;智能驾驶的下半场以智能化为主,发力方向主要集中于智能座 舱领域和自动驾驶领域,核心驱动力在于高阶辅助驾驶和自动驾驶技术的创新升级,相关车企逐步聚焦产业化、规 模化问题,致力于实现高阶智能汽车的商业化量产。

从人工智能带来的变化来看:我们认为神经网络算法逐渐对各个产业和领域进行深度赋能。2022年11月OpenAI推 出ChatGPT、2023年3月推出GPT-4,表明大语言模型率先对文本端赋能;当前,特斯拉FSD系统迭代至Beta V11.4版本,在架构上进行重大改进,引入BEV+Transformer范式,推动端到端自动驾驶,表明神经网络的助力已 渗透到智能驾驶等领域。

随着智驾场景从较为简单的高速场景迈向更加复杂的城市场景,我们认为,在人工智能的赋能下,自动驾驶感知技 术的进步将在更多智驾场景下显现优势。

生态圈:算法为核心技术难点,车企与模型厂商探索共建

自动驾驶作为行业下半场的重点发力方向之一,其生态圈的构建非常关键。自动驾驶生态圈可分为四个层级:开发 服务、后台系统及基础设施、单车软件系统、单车硬件系统。其中,软件系统中的感知算法、预测及规划算法是当 前的核心技术难点。我们认为,自动驾驶解决方案及其生态圈的构建是车企实现产品领先以及差异化体验的核心, 车企可以选择与模型厂商或算法公司合作研发、共同探索,建立基于软件系统和生态圈的核心竞争力。

自动驾驶系统:感知是前提,规控决定车辆如何与环境互动

自动驾驶系统对应着自动驾驶生态圈中的单车软件系统及部分硬件设施,主要由三个子系统构成: 感知子系统:感知是规控的前提,由各种传感器和感知算法组成。车载传感器包括摄像头、激光雷达、雷达、声纳、 IMU、GNSS等,用来感知周围环境、监测车辆的定位和状态。感知算法主要包括传感器融合和滤波算法(例如卡尔 曼滤波、粒子滤波、贝叶斯滤波),可以帮助减少传感器数据噪声的形成,由此降低测量的不确定性。 规划子系统:利用感知结果,对车辆行为进行最优规划。车辆采用的最优行为需要通过预测车辆和环境中的其他事 物的未来状态来确定,并考虑全局计划、安全性、舒适性及软硬件的约束等。 控制子系统:通过调整车辆的控制元件,准确执行轨迹,实现“实际驾驶”。控制算法可分为纵向运动控制(例如 对车速、与前后车或障碍物距离的控制)和横向运动控制(即垂直于运动方向上的控制,例如转向控制),代表执 行器包括油门、刹车和转向等。控制系统决定最终车辆将如何表现并与环境互动。 当前,AI对自动驾驶的赋能主要体现在感知环节、以及连接感知和规划的预测环节。

感知环节-硬件端:车企配置各异,4D毫米波雷或成为新标配

4D毫米波雷达优势凸显,有望成为感知硬件配置新方案。毫米波雷达是指工作波长介于1-10mm的电磁波雷达,通 过向障碍物发射毫米电磁波并接收回波来精确探测物体的距离、速度、方位,而4D毫米波雷达除探测“距离、速度、 方位”外,还可以用于测量高度,从而实现四个维度的感知,并具有广视角、高精度、高分辨率等优势,有助于进 一步拓展自动驾驶的感知能力。对比其他传感器,毫米波雷达是基于电磁场原理,而激光雷达和摄像头本质上均基 于光波原理,均不能在雨雪雾霾等恶劣天气情况下正常工作,而毫米波雷达可以全天候不受光线和气候的影响,可 为其他传感器提供更多冗余;此外,激光雷达成本高,在一定程度上阻碍了其作为感知装置的硬需求,但得益于其 分辨率较高,因此能为车企在开发样车阶段能够提供很好的起点,若4D毫米波雷达同样具备较高的分辨率,将成为 车企更经济的配置选择。

技术路径:大模型成就端到端自动驾驶,推动感知决策一体化

目前,自动驾驶系统的设计主要分为两大技术路径:模块化方案和端到端方案。两大路径可优劣互补,以上路径当 前均在积极探索、相互结合。 模块化路径:涉及众多模块,每个独立的模块负责单独的子任务,例如自动驾驶系统的一级模块可分为感知、规划 和控制,每个一级模块下又分为众多子模块,每个模块可基于不同的规则或算法。由于每个独立模块负责单独的子 任务,因此出现问题时可及时回溯,并易于调试,具有较强的解释性。 端到端路径:端到端(End-to-End)概念来源于深度学习,端到端路线是指AI模型只要输入原始数据就可以输出最 终结果。在自动驾驶的应用中,端到端模型可以将感知、规划和控制环节一体化,通过将车载传感器采集到的信息 直接输入神经网络,经过处理后直接输出自动驾驶的驾驶命令,潜在性能更佳、优化效率更高。

2 特斯拉自动驾驶:坚信视觉力量,剑指端到端大模型

硬件端:全栈自研HW3.0,底层硬件继续向更高级别迭代

HW1.0向HW3.0快速迭代,硬件性能有望持续升级。1)HW1.0:2014年10月,特斯拉基于Mobileye芯片 Mobileye EyeQ3发布第一代硬件Hardware1.0。2)HW2.0:2016年10月,特斯拉推出HW2.0,芯片由英伟达提 供,并配置8个摄像头+12个远程超声波雷达+1个前置毫米波雷达,在功能上实现辅助驾驶,且该配置延续至 Hardware3.0。3)HW3.0:2019年4月,特斯拉发布Hardware3.0系统,采用全栈自研FSD芯片,单个芯片算力 达72TOPS,远高于当时市面上的自动驾驶芯片,算力实现大幅提升,在功能上可识别更多目标。4)目前,特斯拉 正处于由HW3.0向HW4.0更高级别硬件的迭代阶段,未来有望支持4D毫米波雷达等更多传感器和摄像头的接入, 使GPU集成化更高、模块更轻薄,FSD芯片内核数量有望持续增多,进一步提升性能等。

感知算法:采用端到端感知架构,构建三维向量空间

端到端感知:输入多相机图像,输出 三维向量空间。特斯拉车身外部环绕 8个外部摄像头,摄像头对车身周围 环境的图像数据和信息进行采集,再 通过感知神经网络进行处理,系统通 过深度学习模型进行自我培训,从而 达到全范围认知路况、增进系统控制 精度的目的,构建真实世界的三维向 量空间,其中包含汽车、行人等动态 交通参与物,道路线、交通标识、红 绿灯、建筑物等静态环境物,以及各 元素的坐标位置、方向角、距离、速 度、加速度等属性参数。

感知:特征级融合取代后融合,降低算力消耗和复杂度

感知信息采用特征级融合,拟合效果显著优于后融合。特斯拉起初采用后融合方案,但在后融合方案下,置信度较 低的信息容易被忽略,原始数据也容易丢失,从而会导致信息失真、决策失误等问题。而特征级融合可以避免不同 的摄像头对同一特征进行识别,因此能够更好地解决后融合信息失真的问题。根据特斯拉AI Day展示的效果图来看, 在BEV空间中做特征级融合的效果要远远好于后融合,同时能够避免前融合方案下的巨大算力消耗、以及后融合方 案下的复杂度难题。

数据端:车队逐渐壮大,里程数日益增长,构建数据护城河

FSD里程数实现迅速增长:根据特斯拉2023年上半年业绩会,特斯拉FSD在里程数上取得新进展,FSD Beta累计行 使里程已超过3亿英里,仅23Q2单季度提升约1亿英里。 自身数据库反哺模型性能:特斯拉车队规模逐渐壮大、车辆累计行使里程日益增长,有助于特斯拉构建自身的自动 驾驶数据仓库,形成数据壁垒,为大模型的训练和优化提供更多的优质数据,反哺算法性能。

算力端:自研大规模集群超算平台,Dojo有望提供强算力

特斯拉自研超级计算平台Dojo——基于超大计算集群设计。Dojo架构由特斯拉完全定制,涵盖计算、网络、 输入/输出(I/O)芯片、指令集架构、电源传输、冷却等,具备高可扩展性和分布式系统。Dojo具备超高 集成度,并非根据小系统拓展而来,旨在高效地处理海量视频数据、进行定制的神经网络训练。Dojo于 2021年首届特斯拉AI Day上面市,当时仅有第一批芯片和训练块,尚未构建起完整的Dojo机柜和集群 (Exapod);2022年AI Day,Dojo取得新进展,并通过后续的持续部署与规划,搭建起大规模算力集群, 推动大模型训练。

算力规划明确,Dojo正式投产。1)2023年7月,Dojo进入投产阶段,拉开特斯拉算力集群快速建设阶段 的帷幕;2)预期2024年2月,特斯拉的算力规模进入全球前五;3)预期2024年10月,特斯拉的算力总规 模达到100EFlops,相当于30万块A100GPU的算力总和。

商业端:软件化进程推进,买断制叠加订阅制,整车价值量增加

从“量”的角度来看:人工智能、神经网络以及大模型的应用正加快自动驾驶系统的迭代速度,技术的进步将带来 用户驾驶体验的提升,从而推动用户付费转化。我们认为,特斯拉FSD Beta v11.4版本在端到端大模型的赋能下将 进一步优化系统性能,刺激软件需求量和付费率抬升。

从“价”的角度来看:特斯拉FSD的收费模式采用买断制和订阅制。①买断制方面,车主需要一次性支付套件价格, FSD从2016年的3000美元经过多轮涨价,自2022年9月5日起价格提升至15000美元。②订阅制方面,特斯拉在业 内首创自动驾驶服务按月收费,FSD每月订阅价格在99美元至199美元之间,具体取决于车辆是否配备EAP系统;对 于车主而言,订阅模式可以迅速降低FSD购买成本,并在使用期限上灵活选择;对于特斯拉而言,公司只需要开放 软件接口即可增强盈利能力。我们认为,无论是买断制还是订阅制,特斯拉在售卖整车的同时还具备软件价值,自 动驾驶系统的迭代将增加整车价值量,电动汽车逐渐呈现软件化趋势。

3 特斯拉机器人:复用FSD底座,引领具身智能

AI赋能人形机器人,引领具身智能浪潮

机器人作为具身智能的更优形态,人工智能将对机器人进一步赋能。 具身智能是将人工智能与机器结合,将多模态的大语言模型作为人类与机器沟通的桥梁,帮助机器处理具身推理任 务,强调智能与身体和环境的互动关系,将智能与实际物理世界结合起来,通过身体感知、运动和与环境互动来实 现智能行为。人形机器人的具身智能包括具身感知和具身执行。其中,具身感知是指通过机器人身上的各种传感器获取周围环境 的信息。具身执行是指将机器人的感知和决策转化为具体行动。近年来,人形机器人作为具身智能的代表产品,结 构设计日益符合人类特点,AI技术的进步进一步提升了人形机器人的感知、规划、控制和人机交互能力。

特斯拉横向迁移FSD底座,机器人与自动驾驶软硬件部分适用

硬件层面:特斯拉自动驾驶和机器人在硬件上具备一定的通用性。感知层主要包括摄像头、毫米波雷达等传感器; 规划层主要基于AI芯片和FSD系统;控制层包括执行器等。特斯拉机器人在硬件端与自动驾驶具有一定相似性。 软件层面:特斯拉打通FSD在自动驾驶和机器人中的底层模块,在一定程度上实现算法的复用。自动驾驶FSD系统 可以根据感知到的环境信息进行路径规划和车辆控制,该方法同样适用于机器人,帮助机器人实现视觉感知、从而 在复杂环境中选择最佳路径、最后执行适当的决策。实际上,自动驾驶本质也属于机器人,特斯拉目前在感知和识 别等模块上具有一定的通用人工智能能力,而通用人工智能算法将是特斯拉未来长期价值所在。

硬件端-四连杆膝盖关节:模拟人体设计,优化腿部力学模型

腿部膝盖弯曲角越大,膝部扭矩负载更高。随着腿 部的弯曲角度变大,例如越接近蹲姿,执行同一任 务所需的扭矩会越来越大,例如半蹲走路比站着走 路更费劲。 特斯拉采用四连杆结构,让同一负载在直腿状态和 弯腿角度下的所需扭矩更为平缓和一致。在简单的 二连杆设计结构下,机器人的大小腿仅用一个转轴 连接,导致机器人在弯腿状态下所需的执行扭矩会 显著增加(蓝线);在四连杆膝盖结构下,所需扭 矩基本保持平稳,将实现小马拉大车的效果。

算法端-规划:借用自动驾驶模拟器,融合多学科,优化运动轨迹

自动驾驶模拟器可执行机器人运动代码,但机器人移动较汽车移动更加复杂。在模拟方面,特斯拉将机器人的运动 代码集成到自动驾驶模拟器中,通过运行自动驾驶模拟器的运动控制代码,帮助机器人实现行走。2022年4月,特 斯拉机器人迈出第一步,移动速度缓慢;但随着团队解锁更多关节、以及技术的不断进展,例如手臂平衡等,机器 人的行走日益进化。事实上,从汽车移动到机器人移动的过程中,运动规划变得更加深入和复杂。

模型基于多种学科,优化路径和轨迹规划。人类在行走过程中具备身体的自我意识、采用节能步态、能够做到平衡 和四肢协调,因此,机器人的运动规划需要结合运动学、动力学和接触特性等多种学科,模型更加复杂。当前,机 器人的行走规划主要分为三个部分:1)基于期望路径,进行足迹规划;2)基于规划的足迹,将足迹连接成轨迹, 机器人通过脚趾和脚跟的步幅在轨迹上实现行走,提供更大的步幅和更少的膝盖弯曲,从而提高系统效率;3)找到 质心轨迹,保证机器人系统在平衡状态下进行动态的、可行的运动。

报告节选:

(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)

精选报告来源:【未来智库】。

0 阅读:0

含双聊军事

简介:感谢大家的关注