汽车算力正在狂卷,作为特斯拉的专有D1芯片,Dojo计划在持续发展。Dojo是特斯拉设计的超级计算机系统,用作人工智能,特别是FSD的训练场。这个名字是对武术练习道场的致敬。
这意味着特斯拉将来可能不必依赖英伟达的芯片,用低成本就可获取大量算力。预计今年年底前,Dojo1将实现与约8000块H100等效的在线训练。
预计到今年10月,Dojo的总算力将达到100 exaflops,约等于320500块英伟达 A100 GPU的算力水平;预计今年年底前,Dojo1将实现与约8000块H100等效的在线训练。
呈指数级增长的汽车算力需求
智能汽车的算力是其智能化功能实现的核心驱动力。随着自动驾驶技术的发展,智能汽车对算力的需求也在不断增加。
智能汽车需要处理来自多种传感器(如摄像头、毫米波雷达、激光雷达等)的海量数据,这些数据需要通过强大的计算平台进行实时处理和分析,以实现环境感知、路径决策规划和车辆运动控制等功能。
对算力的需求呈指数级增长。根据公开资料显示,L4/L5级自动驾驶对算力的要求是L2级的10倍,达到1000+ TOPS。这表明,随着自动驾驶技术的发展,对车载计算平台的算力要求也在不断提升。
此外,智能汽车中的大模型和复杂算法也对算力提出了更高的要求。例如,端到端的智能驾驶模型每两天就会更新一次,训练和研发过程中所需的算力更是增长两个数量级。因此,算力成为智能汽车发展的关键因素之一。
02
特斯拉算力水平等于国内车企总和
在智能汽车领域,人们通常用EFLOPS来衡量车企算力高低。
EFLOPS(Exa FLOPS)本身是衡量计算机性能的一个重要指标,尤其在高性能计算领域。它代表每秒百亿亿次浮点运算,即每秒执行10^18次浮点运算。这个单位通常用于描述超级计算机或大规模并行计算系统的计算能力。
据公开数据显示,国内车企现有的算力都在10 EFLOPS以下,到2024年底,中国移动、中国电信、中国联通的规划算力分别是17 EFLOPS、21 EFLOPS和15EFLOPS,三大运营商合计53 EFLOPS,但围绕“端到端”大模型,一家企业需要的理想算力就高达100 EFLOPS。
相比之下,特斯拉拥有的算力水平是100 EFLOPS,是所有车企所拥有算力的总和。
长期以来,特斯拉在人工智能和智能驾驶领域进行了持续投入,其算力主要包括云端算力、超算集群和车端算力三个部分。
特斯拉在云端算力方面取得了显著的进展。根据最新数据,特斯拉的人工智能训练算力已经达到了相当高的水平。具体来说,特斯拉的云端算力已经从2019年的不到1500个GPU,增长到2024年二季度的约35000 H100 GPU等效算力,并预计到年底将飙升至约90000 H100 GPU等效算力。这一增长幅度之大,体现了特斯拉在算力投入上的决心和实力。
特斯拉的云端算力主要用于自动驾驶系统的训练和推理。通过大规模的算力支持,特斯拉能够不断优化其自动驾驶算法,提高系统的准确性和可靠性。此外,特斯拉还推出了自研的云端计算芯片D1,这款芯片在自动标注、占用网络等自动驾驶任务上相比英伟达同期主力芯片A100实现了数倍的性能提升。
建设强悍云端算力的同时,特斯拉还建设了强大的超算集群来支持其自动驾驶技术的发展。
其中,特斯拉的Dojo超级计算机是其算力体系的重要组成部分。Dojo超级计算机采用了特斯拉自主研发的D1芯片,具备高可扩展性和分布式系统特点。特斯拉计划利用Dojo对海量的视频数据进行无监督学习,以加速特斯拉的Autopilot和完全自动驾驶(FSD)系统的迭代。
此外,特斯拉还透露了其超算集群“Cortex(大脑皮层)”的名称和规模。该超算集群可以容纳高达10万张H100/H200显卡,代表了巨大的算力规模。Cortex超算集群专门用于训练特斯拉的自动驾驶系统FSD和Optimus机器人,进一步彰显了特斯拉在AI领域的领先地位。
除了云端算力和超算集群外,特斯拉还在车端算力方面进行了大力投入。特斯拉的HW4.0计算平台已经实现了数百TOPS的算力水平,而即将推出的新一代计算平台AI5的算力将是HW4.0的10倍。这意味着特斯拉的车型将具备更强的数据处理和决策能力,从而支持更高级别的自动驾驶功能。
此外,特斯拉的算力投入不仅限于硬件,还包括软件优化。为了实现对神经网络模型的自动调优和并行化,特斯拉为Dojo编译了一套完整的软件栈,包括Dojo编译器、Dojo Ingest Pipeline、Dojo Runtime和Dojo Library。
03
努力提升算力的国内车企
随着智能驾驶和智能座舱技术的快速发展,国内车企对算力的需求急剧增加。
具体来说,在端到端智能驾驶领域,车企所需的算力目标已经高达100 EFLOPS(每秒浮点运算次数),但目前大多数车企的算力投入尚未达到这一水平。此外,在智能座舱大模型领域,基础模型算力需求也远大于10 EFLOPS,而垂域模型的算力需求更是高达数百到数千PFLOPS(1 EFLOPS = 1000 PFLOPS)。
尽管需求旺盛,但国内车企的算力供给却面临诸多挑战。
目前,国内车企的算力主要依赖于英伟达等国外芯片供应商的存量芯片,而这些芯片在当前国际形势下变得难以获取。此外,国内运营商虽然规划了一定的算力规模,如中国移动、中国电信、中国联通分别规划了17 EFLOPS、21 EFLOPS和15 EFLOPS的算力,但这些算力主要集中在云端,且难以满足车企在车载算力方面的需求。
国内车企的算力来源主要包括车载算力和云端算力两部分。
车载算力主要通过安装在车辆上的计算芯片来提供,如NVIDIA DRIVE Orin SoC,它提供了254 TOPS的算力,能够支持自动驾驶功能、置信度视图、数字仪表盘以及AI座舱等应用。此外,华为MDC810芯片也提供了强大的算力,使得阿维塔11仅需一颗芯片就能达到400 TOPS的算力。
而特斯拉的算力支持主要由D1芯片、训练模块和超算Dojo构成。D1处理器采用台积电7nm制造工艺,拥有500亿个晶体管,单片FP32算力为22.6TOPs,BF16算力为362 TOPs。此外,特斯拉通过将多个D1芯片组成训练模块,每个模块的算力高达9 PFLOPs。
对比发现,单看车端算力,国内车企和特斯拉已经有一定差距了。由于国内车企在芯片研发和制造方面相对落后,因此车载算力主要依赖进口芯片,好在云端算力可以分担车端算力的压力,特别是在处理复杂场景和大量数据时,通过边缘计算和云计算相结合的方式,可以有效提高整体系统的算力和效率。
当然,云端算力虽然规模庞大,但如何高效、安全地传输到车辆上并满足实时性要求仍是一个亟待解决的问题。
从目前的现状看,国产车企想要在算力上迎头赶上,不仅要应加大在自动驾驶专用云端算力芯片与计算集群方面的自研力度,更要加强与科研机构、高校及科技企业的合作,共同研发优化算法,提升软件的智能化水平,从而更高效地利用算力资源。
同时,通过百度、阿里、腾讯等科技巨头合作,共建自动驾驶智算中心,也可以大幅节省车企在算力建设上的时间和成本。而且针对自动驾驶等算力需求较大的领域,国产车企应集中有限的算力资源,形成规模效应。通过算力集中,提高模型迭代效率,加速技术突破,进而应对智能化和电动化的行业挑战。