
谷歌首款AI推理特化版TPU芯片来了。
在谷歌云Next大会上,谷歌发布了第七代TPU芯片Ironwood。谷歌机器学习、系统和云AI副总裁兼总经理Amin Vahdat称,Ironwood是谷歌迄今为止最强大、最节能的TPU,专为支持思考、推理类模型的大规模应用而设计。
据介绍,Ironwood是谷歌首款在其张量核和矩阵数学单元中支持 FP8 计算的 TPU,而此前谷歌的 TPU 仅支持用于推理的INT8格式和处理以及用于训练的BF16格式和处理。

在单芯片性能方面,每块Ironwood芯片的峰值算力为4614 TeraFLOPS,是第六代TPU芯片Trillium的5倍,是2023年第五代TPU的10倍,2017年第二代TPU的3600倍;内存高达192GB,是Trillium的6倍,HBM带宽达到7.2 Tbps,是Trillium的4.5倍;其每瓦峰值算力为29.3 TeraFLOPS,是Trillium的2倍多。
在集群算力方面,通过芯片间互连(ICI)网络,Ironwood实现1.2 Tbps的芯片间双向带宽,最高可扩展至9216个液冷芯片组成的Pod,总算力达42.5 ExaFLOPS,是目前世界上最大超算El Capitan算力的24倍多。
在散热方面,Ironwood采用了液冷散热技术,确保芯片在高负载下稳定运行,同时每瓦算力达 29.3 TFLOPS,较英伟达 H200 芯片提升 35%。这种能效优势使数据中心 PUE(电能使用效率)可降至 1.1 以下,显著降低运营成本。
Ironwood芯片还配备了第三代SparseCore加速器,该加速器首次亮相于TPU v5p,并在去年的Trillium芯片中得到了增强。SparseCore最初的设计目的是加速推荐模型,这些模型利用嵌入来跨用户类别进行推荐。而Ironwood芯片中的第三代SparseCore编码了各种算法,以加速金融和科学计算,但具体细节尚未透露。
目前Ironwood提供两种尺寸:256芯片配置和9216芯片配置。开发者还可以利用谷歌推出的Cluster Director部署和管理具有计算、存储和网络功能的大型加速虚拟机集群。
此外,为了简化数万个 Ironwood TPU 的管理,谷歌同步推出了Pathways软件堆栈,企业可通过 API 快速调用算力资源,轻松突破单个Ironwood Pod的限制,将数十万颗芯片组合在一起,并在多个TPU间达成高效的分布式运算。
在落地场景方面,Ironwood更适合于“思维模型”的复杂计算和通信需求,例如大语言模型(LLM)、混合专家模型(MoE)和高级推理任务等这些需要大规模并行处理和高效的内存访问的场景。
具体而言,Ironwood能在执行大规模张量操作的同时,最大限度地减少芯片上的数据移动和延迟。由于思维模型的计算需求远远超出了任何单个芯片的容量,谷歌为Ironwood TPU配备了低延迟、高带宽的ICI网络,以支持全TPU Pod规模的协调同步通信。
值得一提的是,在基因测序和药物研发中,Ironwood 的算力可将数据分析周期从数月压缩至数天。例如,某药企利用9216芯片集群,将癌症靶点筛选效率提升 100 倍,加速创新药研发进程;在实时风险评估模型中,可处理千亿级交易数据,识别欺诈行为的准确率提升至 99.9%,同时降低50%的计算成本。某银行采用256芯片配置,将信贷审批时间从小时级缩短至分钟级;在自动驾驶场景中,支持L5级全栈算法的端到端推理,车辆决策延迟从毫秒级降至微秒级。某自动驾驶公司测试显示,Ironwood 可同时处理20路高清摄像头和激光雷达数据,复杂路况下的避障响应速度提升3倍。
Ironwood的发布被视为谷歌对英伟达H200芯片的 “反击”,其单芯片算力是H200的1.8 倍,而功耗仅为后者的70%,这样的能效优势可能会改写AI芯片市场格局。目前英伟达已经在加速量产GH200,未来双方在推理市场的博弈将持续升级。
*声明:本文系原作者创作。文章内容系其个人观点,我方转载仅为分享与讨论,不代表我方赞成或认同,如有异议,请联系后台。
想要获取半导体产业的前沿洞见、技术速递、趋势解析,关注我们!