本不平静的智能驾驶芯片江湖,再添新变局。
5 月 10 日,后摩智能重磅发布智能驾驶芯片鸿途™H30,该芯片物理算力高达 256TOPS@INT8,与时下备受追捧的 256TOPS 英伟达 Orin X 不相上下,典型功耗只有 35W,能效比之高可见一斑。
这块芯片性能如此强劲的背后,在于其采用了颠覆性的底层架构设计——存算一体。
与大多数芯片基于冯·诺依曼架构打造不同,存算一体通过在存储单元内完成部分或全部的运算,极大地解决了芯片性能受存储带宽限制的瓶颈,且降低了功耗需求。
鸿途™H30 的推出对于行业来说具有重大的意义,其大算力、极致能效比、超低延时、低成本等特性,正好吻合智能汽车对于芯片的需求。
当下,智能驾驶行业正在面临性能提升、成本下探的关键发展期,作为国内首款存算一体智驾芯片,该芯片注定将引发一系列的连锁反应。
「从大型计算机到个人 PC,再到现在的手机,技术发展与应用变革的趋势表明,每 1000 倍效率提升将会创造一个新的计算时代,伴随着 AI 技术的跃进,今天的芯片也有望在计算能力和效率上有 1000 倍以上的提升,后摩希望做出极效的 AI 芯片,实现万物智能。」后摩智能创始人兼 CEO 吴强在发布会上如此说道。
01、存算一体,颠覆智能驾驶芯片
正如开头所说的,后摩采用了存算一体这种新的底层架构来设计芯片。
所谓存算一体,从字面意思上来说,就是存储和计算融为一体。
首先需要明确的一点是,所有的 AI 算法包括深度学习,本质上是在下达指令,做大量的乘加计算,体现在芯片层面,则是一大堆晶体管的开开闭闭。
在过去按照冯·诺依曼架构设计的芯片下,AI 计算过程简单理解是这样的:数据通过设备输入到存储器,处理器(计算单元)从存储器中获取指令和数据,进行计算,处理完后输出结果,写回存储器。
这种架构的显著特点是计算单元与存储单元分离,在执行计算时,数据在二者之间高频地迁移,在面对常规计算量时,这样做尚足以胜任工作,然而随着自动驾驶、ChatGPT 等大数据模型出现,对于算力需求急剧提升,冯·诺依曼架构开始遭遇瓶颈。
举例来说,以矩阵乘法为主的 Transformer 类计算,大多数的步骤是在访问内存,而非执行计算,尽管大量数据频繁在计算单元与存储单元之间移动,但由于存储器读写的速度不够快,导致数据被「堵塞」在访存过程中,并未真正投入计算,由此使得计算系统的有效带宽大大降低,系统算力的增长举步维艰。
尽管可以通过多核 (如 CPU)/众核 (如 GPU) 并行加速技术提升算力,但这将带来功耗和成本的提升。
应用存算一体新架构,可以解决这个难题,其底层逻辑是将 AI 计算中大量乘加计算的权重部分,直接留在存储单元中计算,以优化数据传输路径,从而大幅提升计算效率。
而这正是后摩智能设计智能驾驶芯片 IP 的思路,公司联合创始人兼研发副总裁陈亮分享道,通过在传统的 SRAM 电路旁,加入包括 Activation Driver、乘法器、加法树、累加器等定制化电路结构,后摩成功实现高能效的存内并行乘加运算。
「计算电路紧挨着存储单元,数据被读出的同时可以在原地进行乘加计算,相较于(冯·诺伊曼架构下)Row by Row 的数据读取方式,极大地提高了并行性。」
这样的 IP 设计拥有超高的计算密度,使得「大算力」得以实现;基于 SRAM 的纯数字设计,还满足全精度要求;架构上是完全的存内计算,也减少了访存功耗。
基于此,后摩面向智能驾驶场景打造了专用 IPU(Intelligence Processing Unit,处理器架构)——天枢架构。
陈亮表示,取名「天枢」在于其设计理念借鉴融合了庭院式的中国传统住宅和现代高层公寓楼的不同风格。
在他看来,庭院式代表着集中式的存储和计算架构,特斯拉 FSD 芯片正是如此,通过堆积大量芯片资源以及高并行性,带来性能提升。
然而,这在遇到算力要求更大、计算灵活性要求更高的场景下,容易受到数据规模的限制,此时计算效率急剧下降,数据的并行性和计算资源的并行性无法匹配。
「这样的架构设计类似于古典中式庭院,它向内合围成一个小的院子,集各种功能于一身,使得人与人、人和自然之间可以非常高效沟通,但是因为院落面积终究有限,所能容纳的居住人数也有限,且设计和建造这样的庭院难度和成本极大,所以它的可拓展性就比较差。」
而现代西式的高层公寓就截然不同,其采用完全相同的独立小单元,可以在三维空间中自由拓展,以容纳更多的人,类比芯片结构,就是将一个算力很大的核切分成若干个小核,细分到极致。「不过这样的架构下,人和自然之间、人和人之间的沟通效率就会变得很低。」
后摩的做法是融合了中式庭院和西式高楼的特点,陈亮解释道,先打造一个优美的庭院,以大布局设计保障计算资源利用效率,在此基础上,再借鉴现代高层建筑的方式,以多核/多硬件线程的方式灵活扩展算力,「这样我们就实现了芯片效率、灵活性和可扩展性的完美平衡。」
02、能效比力压英伟达 Orin,鸿途™H30 未来可期
立足于天枢架构,后摩成功研发出首款存算一体智驾芯片——鸿途™H30。
该芯片物理算力达到 256TOPS@INT8,典型功耗 35W,简单计算可得,SoC 层面的能效比达到了 7.3TOPS/Watt,而在传统的冯·诺依曼架构下,采用 12nm 相同工艺,所能实现的能效比多在 2TOPS/Watt 的水平。
发布会上,后摩联合创始人兼产品副总裁信晓旭以 Resnet50 为例,更为直观地展示了鸿途™H30 这一优异的性能指标。
在 Resnet50 v1.5,输入图片尺寸是 224x224 的测试条件下,当「batch size = 8」时,鸿途™H30 达到了 10300 帧/秒的性能,是某国际巨头旗舰芯片的 2.3 倍,而在「batch size = 1」时,这一差距更为明显,鸿途™H30 性能达到了 8700 帧/秒,而国际巨头的芯片性能仅为 1520 帧/秒,前者是后者的 5.7 倍。
「国际巨头的芯片需要在更高的 batch size 的情况才能更好地发挥性能,但高 batch size 带来的是延时的增加。而我们架构针对智能驾驶场景特殊优化的,因此在低 batch 下 (也就是更低延时),性能就能够充分发挥。」
另一参数——实际业务下的计算效率更能说明本质差别。基于上述相同的条件,鸿途™H30 在「batch size = 8」条件下,计算效率达到了 294FPS/Watt,是国际友商的 4.6 倍,「batch size = 1」时,则达到了 11.3 倍。
而这还是在不同制程下的对比,鸿途™H30 基于 12nm 工艺,而国际巨头芯片基于 8nm 工艺,不难理解,如果将二者转化成同一工艺节点对比,存算一体架构的芯片计算效率优势将会更明显。
鸿途™H30 的规格参数还不止这些,其支持 Memory 扩展,带宽达到 128GB/S,同时,内部还集成了 16 路的 1080P 的视频编码单元和解码单元,在外部的高速接口上,采用 PCle 4.0 的连接,向下兼容,lane 数可配,支持 RC 和 EP mode。
多重「硬实力」加持下,鸿途™H30 成功运行常用的经典 CV 网络和多种自动驾驶先进网络,包括当前业内最受关注的 BEV 网络模型以及广泛应用于高阶辅助驾驶领域的 Pointpillar 网络模型。
信晓旭透露,以鸿途™H30 打造的智能驾驶解决方案已经在合作伙伴的无人小车上完成部署,「这是业界第一次基于存算一体架构的芯片成功运行端到端的智能驾驶技术栈。」
在发布会现场,后摩还专门推出了基于鸿途™H30 打造的智能驾驶硬件平台——力驭®,其 CPU 算力高达 200 Kdmips,AI 算力为 256Tops,支持多传感器输入,能够为智能驾驶提供更充沛的算力支持;在功耗上,力驭®平台仅为 85W,可采用更加灵活的散热方式,实现更低成本的便捷部署。
衡量一款芯片好不好,除了看硬件上的「硬实力」,还要看软件上的易用性,这其中工具链发挥着重要的作用。信晓旭认为,除了追求芯片在 PPA 指标上的竞争力之外,还要确保在软件工具链的竞争力,「要打造高效,易用的软件开发工具链,让算法开发人员用得舒服、用得爽。」
汽车之心了解到,为了帮助客户和合作伙伴用好芯片,后摩基于鸿途™H30 芯片自主研发了一款软件开发工具链——后摩大道™,以无侵入式的底层架构创新保障了通用性的同时,进一步实现了鸿途™H30 的高效、易用。
信晓旭表示,在芯片和工具链的双重配合下,后摩能够向智能驾驶市场提供更优选择。他透露,鸿途™H30 将于今年 6 月份开始给 Alpha 客户送测。
「我们的研发人员还在加班加点地调试,进行送测之前的最后准备工作,这将会是后摩用存算一体重构智能驾驶芯片的开端。」
03、格局未定的智能驾驶芯片江湖,再次迎来大洗牌
在后摩发布鸿途™H30 之前,似乎没有玩家在芯片底层架构做改动,即使是打响大算力芯片前装量产第一枪的国际巨头英伟达,目前也是沿着冯·诺伊曼架构不断迭代自己的产品。
然而随着智能驾驶往更高阶和更普及化方向发展,对于架构创新的呼唤,显得愈发紧迫。
一方面,从高速公路、快速路到城区道路,智能驾驶面临的场景越来越复杂,为了识别各种异形物,玩家们部署了 Transformer 等大模型,由此也带来算力需求的急剧上升,业内估计从当前火热的城市 NOA 到未来走向 L3/L4 级自动驾驶,芯片算力将从几百 TOPS 往上千 TOPS 增长,然而在传统的冯·诺依曼架构设计下,存储带宽制约算力向上拓展的空间;
另一方面,智能驾驶功能正在加速向下渗透,工信部数据显示,2022 年,智能网联乘用车 L2 级及以上辅助驾驶系统的市场渗透率提升至 34.9%,较 2021 年增加 11.4 个百分点,有数据预测,2025 年,该功能的渗透率将进一步上升至 70%,在此过程中,智驾芯片的成本需要不断降低,以满足主机厂大量装车的需求,然而随着摩尔定律失效,依靠改进芯片制程工艺来降本的方式已然难以为继。
可以看到,无论是从算力需求角度,还是从行业降本诉求来看,传统的冯·诺伊曼架构已经适应趋势的发展,到了不得不变革的地步。
后摩推出首款存算一体芯片鸿途™H30,无疑精准切中了这一痛点,并在「天下未定」的市场格局下,占据了有利先机。
吴强表示,鸿途™H30 直接消除了「存」「算」界限,使计算能效达到数量级提升,且由于不依赖于先进的存储工艺或封装技术,仅通过底层架构的创新,在 12nm 的制程上,也能把算力做到几百 TOPS,且不增加成本。
另外,因为功耗较低,还减少了投向复杂散热系统的成本,让 10 多万左右的平价车能够用上高算力芯片,以此实现智能驾驶功能。
「只有帮助客户实现更低成本的便捷部署,才能推动智能驾驶应用走入寻常百姓家。」
需要指出的是,鸿途™H30 还有一个容易被忽视的优点——供应链安全。众所周知,中国半导体行业正在遭受全球地缘政治影响,对于车企而言,确保芯片供应链安全、自主可控,具有重大的战略意义。
后摩推出的鸿途™H30 能够做到满足市场算力需求的同时,不依赖制程工艺,这无疑给车企吃下一颗「定心丸」。
中国电动汽车百人会副理事长兼秘书长张永伟在发布会上也指出,鸿途™H30 将有利于解决汽车芯片供应链中存在的同质化竞争问题,助力提升产业链的韧性和供应链的安全性。
从智能驾驶兴起到现在,芯片领域一直在变,从单片机到 SOC,从小算力到大算力,从与算法绑定封闭,到软硬解耦走向开放,如今,又迎来底层架构的革新,而每一次变化,都将意味着市场格局的重新洗牌。
信晓旭表示,如今就像是芯片行业的「内燃机时刻」,在汽车发展最早期,由于是蒸汽机提供动力,能量转换效率十分低,导致当时的汽车沦为少数人的玩具,后面随着内燃机的推出,能量效率得到大幅提升,由此大大加速了汽车普及,为后面近百年汽车产业的繁荣,奠定了坚实的底层技术基础。
「作为目前业界计算效率最高的智驾芯片,鸿途™H30 在今天推出,像极了那样的时刻。」
就在鸿途™H30 正待上车的时间节点,后摩智能又开启了第二代智能驾驶芯片产品鸿途™H50 的研发,后者基于新一代更先进的天璇架构设计,支持自然散热条件,整体计算效率更高,预计将于 2024 年推出,支持客户 2025 年的量产车型。
随着后摩在存算一体方向持续发力,悄然间,一个新的智能驾驶芯片时代开启了。