Meta开始测试自家AI训练芯片以降低对英伟达依赖

袁遗说科技 2025-03-12 21:12:40



Meta 首款 AI 训练芯片开启测试。

据报道Meta正在测试其首款用于训练人工智能系统的自研芯片,这是该公司朝着自主设计更多定制芯片、减少对英伟达等外部供应商依赖迈出的关键一步。消息人士称,这家全球最大的社交媒体公司已开始小规模部署这款芯片,若测试进展顺利,计划扩大生产以实现广泛应用。

Meta 大力推进自研芯片,这是其长期计划的一部分,目的是削减巨额基础设施成本,因为该公司押注昂贵的人工智能工具来推动增长。Meta 旗下还拥有Instagram和WhatsApp,该公司预计 2025 年总支出在 1140 亿至 1190 亿美元之间,其中高达 650 亿美元的资本支出主要用于人工智能基础设施建设。

一位消息人士表示,Meta 的新款训练芯片是一款专用加速器,这意味着它专为处理人工智能特定任务而设计,相较于通常用于人工智能工作负载的集成图形处理器(GPU),其能效可能更高。

这位人士还称,Meta 正与台积电合作生产这款芯片。

另一位消息人士指出,Meta 在完成该芯片的首次“流片”后便开启了测试部署,流片是芯片开发工作中的一个重要成功标志,即把初始设计交付芯片工厂生产。

一次典型的流片成本高达数千万美元,大约需要三到六个月才能完成,而且无法保证测试一定成功。一旦失败,Meta 就得排查问题,重新流片。

该芯片的规格尚不清楚,但通常情况下,AI 训练芯片采用一种称为“脉动阵列”的设计。该架构由按行和列排列的相同处理单元 (PE) 的结构化网络组成。每个单元处理涉及矩阵或向量的计算,数据按顺序流经网络。

由于这款处理器是为AI训练而设计的,这意味着它要处理海量数据,所以预计该处理器会配备 HBM3 或 HBM3E 内存。鉴于这是一款定制处理器,Meta 定义了其支持的数据格式和指令,以优化芯片尺寸、功耗和性能。在性能方面,这款加速器必须在每瓦性能上与英伟达的最新人工智能 GPU(如 H200、B200,可能还有下一代的 B300)相竞争。

Meta 和台积电均拒绝置评。

这款芯片是该公司 Meta 训练与推理加速器(MTIA)系列的最新产品。多年来,该项目起步不稳,此前曾在类似的开发阶段废弃过一款芯片。

不过,Meta 去年开始使用一款 MTIA 芯片来执行推理任务,也就是在用户与人工智能系统交互时运行该系统所涉及的过程,用于为脸书和照片墙动态消息决定展示哪些内容的推荐系统。

Meta 高管曾表示,他们希望到 2026 年开始使用自家芯片进行训练,训练是一个计算密集型过程,即向人工智能系统输入大量数据,“教会”它如何运行。高管们称,与推理芯片一样,训练芯片的目标也是先应用于推荐系统,之后再用于像聊天机器人 Meta AI 这样的生成式人工智能产品。

Meta 首席产品官克里斯·考克斯上周在摩根士丹利科技、媒体与电信会议上表示:“我们正在研究如何为推荐系统进行训练,进而思考如何为生成式人工智能开展训练与推理工作。”

考克斯将 Meta 迄今为止的芯片开发工作形容为“逐步推进、循序渐进”的过程,不过他表示,高管们认为第一代用于推荐系统的推理芯片取得了“巨大成功”。

此前,Meta 曾放弃一款自研定制推理芯片,当时该芯片在小规模测试部署中表现不佳,与此次训练芯片所经历的测试类似,Meta 转而在 2022 年向英伟达订购了价值数十亿美元的 GPU。

自那以后,这家社交媒体公司一直是英伟达的最大客户之一,囤积了大量 GPU 来训练其模型,包括用于推荐系统、广告系统以及其Llama基础模型系列,这些 GPU 还为每天使用其应用程序的 30 多亿用户执行推理任务。

今年,随着人工智能研究人员愈发质疑继续通过添加更多数据和计算能力来“扩大”大型语言模型还能取得多大进展,这些 GPU 的价值受到质疑。

1 月下旬,中国初创公司DeepSeek推出新的低成本模型,这些模型比大多数现有模型更依赖推理来优化计算效率,这进一步加剧了人们的疑虑。

在深思引发的全球人工智能股票暴跌中,英伟达股价一度暴跌五分之一。随后股价收复大部分失地,投资者押注该公司的芯片仍将是训练和推理领域的行业标准,不过,受更广泛的贸易担忧影响,股价再度下跌。

0 阅读:3

袁遗说科技

简介:感谢大家的关注