百度宣“十万卡集群”时代来临:科技巨头竞逐AI算力极限

玩数据还有点懒 2024-12-20 03:38:30

十万卡集群是指由十万张计算加速卡(如‌GPU、‌TPU或其他专用AI加速芯片)组成的高性能计算系统‌。随着人工智能技术的飞速发展,尤其是生成式人工智能的爆发,科技巨头们正竞相部署“十万卡集群”,这一新型的高性能计算集群正成为当前AI算力竞争的新高地。

10 万卡集群:通往 AGI 的新门票

10 万卡集群正在成为美国大模型公司的标配。

为了捕捉 AGI 大基建浪潮中的 beta 机会和价值流向,拾象发布了 AI 时代的纳斯达克指数, AGIX Index。在文章中我们讨论过,AI 行业正处于“硬件投入—infra 建设—应用爆发”这三个阶段的初期,因此,硬件和 infra 是 AGIX Index 目前重点覆盖的板块。

新一轮 10 万卡集群竞赛再次证明,AGI 的基建投入仍然如火如荼地进行——马斯克高调宣布为 xAI 建设 10 万卡集群,OpenAI/Microsoft、Anthropic/AWS、Meta 等大型 AI 公司也在加紧 10 万卡集群建设,每个集群在服务器硬件上的支出已经超过 40 亿美元。但一个 10 万 H100 集群的建设涉及复杂的技术和运营挑战,远不是砸钱就能解决的问题。

大模型训练的本质是把数据通过算力转换成智能。在 AGI 竞赛中,如果 GPU 是核弹,数据中心就是核武器库。作为新一代计算单元,数据中心决定了芯片是否能转化成算力,支持模型实现“跳变式跨越”。

在这样的竞赛中,既涉及到电力能源挑战、并行计算、网络拓扑方案、可靠性等各种挑战,也涉及到各环节的头部公司,AGIX Index 中的代表公司英伟达、博通、TSMC、MRVL、SK Hynix、VRT 等仍在大基建浪潮的尖端。

科技巨头竞逐AI算力极限

近年来,随着部分国家对高端芯片的出口管制不断加强,国外厂商生产的高档GPU出口受到限制,使得我国在智算领域面临算力供应不足的风险。这种外部压力促使我国加快智算中心国产化的进程,以减少对国外芯片的依赖。近年来,国内已经涌现出了一些优秀的芯片厂商,如昇腾芯片、寒武纪等。

但万卡集群的构建并非简单的GPU卡堆叠,而是一项高度复杂的超级系统工程。通过先进的智算网络技术把上万块GPU芯片像“积木”一样拼接在一起,大幅提升GPU节点间的通信效率,使其在瞬息之间便能处理海量数据与复杂计算任务。

当前万卡集群,尤其是基于国产技术栈的万卡集群还处于起步阶段。从整个技术栈来说,不仅需要在计算、存储、网络等方面实现横向协同,也需要在基础设施、芯片使能软件、框架层面实现纵向协同,涉及的技术领域之广,技术难度之大可想而知。

面向大模型孵化,从新互联、新算效、新存储、新平台和新节能等五个领域提出下一代技术演进建议,也为产业在新型智算中心的硬件设备选型、算力集群设计、机房散热规划、软硬工程调优、全局运营调度等多个方面的技术路线选型提供帮助,极大推动了国内智算产业的成熟。

免责声明:

1、本号不对发布的任何信息的可用性、准确性、时效性、有效性或完整性作出声明或保证,并在此声明不承担信息可能产生的任何责任、任何后果。

2、 本号非商业、非营利性,转载的内容并不代表赞同其观点和对其真实性负责,也无意构成任何其他引导。本号不对转载或发布的任何信息存在的不准确或错误,负任何直接或间接责任。

3、本号部分资料、素材、文字、图片等来源于互联网,所有转载都已经注明来源出处。如果您发现有侵犯您的知识产权以及个人合法权益的作品,请与我们取得联系,我们会及时修改或删除。

0 阅读:23

玩数据还有点懒

简介:感谢大家的关注