飞象网讯(计育青/文)工业和信息化部近日印发通知,为夯实算力网络发展底座,加快创新技术和产品应用,决定正式开展算力强基揭榜行动(简称“揭榜行动”)。此次揭榜行动面向算力网络的计算、存储、网络、应用、绿色、安全等六大重点方向提出了二十一项任务,基本上涵盖了算力全产业链的关键技术及发展方向,并对每一个项目都做了详细的任务、目标说明。

(来源:工信部官网)
在网络环节,揭榜行动重点支持高性能数据处理器(DPU)、基于RoCE的智算网络、光交换智算网络技术研究与验证、面向分布式智算中心的网络关键技术研究与验证等。预期目标上揭榜行动要求到2026年,实现支持智算集群的易操作、高可靠、可平滑过渡升级的光网络,支持人工智能等关键业务承载;光交换设备单端口速率支持100GE/400GE/800GE,交换容量弹性可扩展等。同时,突破智算中心间超大容量、超高可靠网络传输关键技术,研制面向智算中心间网络的传输设备,支撑分布式智算中心间业务的高可靠传输。

(来源:工信部官网)
算力建设热潮涌动,网络需适度超前
近年来全球人工智能技术发展迅猛,各国都非常重视基础大模型、AI应用的开发与建设,视之为决定产业经济升级、国家竞争力提升的关键因素。中国也非常重视AI技术及其应用的发展,先后发布了一系列政策予以推动和鼓励,使得国内大模型技术和应用始终位居全球领先地位。从千亿、万亿参数基础大模型的开发,到面向具体行业、实际场景的AI应用孵化,都产生了巨大的智能算力需求,极大推动了国内智算基础设施的建设。据统计,当前国内已投用了近百个智算中心,可用算力已接近万PFlops。
而DeepSeek突飞猛进的发展,使其成为全球现象级大模型,从科技、医药、传媒到政务、金融、汽车等,DeepSeek的“圈子”仍在持续扩张中。微信等头部APP接入DeepSeek后可以看到,国民级应用模型使用持续放大算力需求,进而带来推理等算力需求的大量增长,智算行业迎来重要发展机遇。
国内通信运营商也在不断加大对智算基础设施的投入。比如中国电信正在打造多层次智算格局,在京津冀、长三角地区建设了两个万卡智算集群,同时还在西部地区打造大规模绿色智算池;中国移动的动作也很快,已建成8.2EFLOPS通用算力、19.6EFLOPS智算能力,分布在京津冀、长三角、粤港澳大湾区、成渝等区域的首批13个智算中心节点已经投用;中国联通规划的算力中心体系覆盖了国家8大枢纽节点和31个省市,数据中心机架的总体规模将超过40万架,未来将建成骨干云池城市230多个、MEC节点超过600个。
随着智算基础设施的规模建设和大范围应用,传统的网络架构和设备渐渐难以满足要求,包括端口密度、功耗、灵活扩展能力、故障冗余能力,以及带宽、时延、可靠性等等,都迫切需要针对智算集群进行深度创新,这也是此次揭榜行动中任务十、任务十一的主要目标。针对这些问题,通信行业已经有充分的技术和产品储备,并且在部分场景下进行了实践验证。
全光交换OXC技术破解智算集群平滑演进难题
当前智算集群网络主要采用纯电层交换机组网模式,算卡与算卡之间通过交换机来连接。一般数据中心采用这种组网模式不会遇到什么问题,但是智算训练不一样,随着大模型不断改进和更新,对算卡的需求会从几千、几万个迅速走向数十万、上百万个,每次智算规模增加都需要对数据中心网络进行重构,成本高且周期长。
另一方面,集群规模的不断增加会引入更多的框式交换机,这些交换机会进一步加重智算中心的能耗负担。随着算卡的增加,连接算卡所需的光模块也会更多,这些光模块一旦发生故障就会影响到整个数据中心的数据处理和传输能力,进而直接影响到AI大模型训练的连续性和准确性。
最后,算卡也会更新换代,每次升级都会大幅提升其数据吞吐能力,这意味着数据中心内部的交换机也必须随之升级,随之而来的是复杂的布线变更、网络配置调整,对数据中心的规划和运维而言是一个巨大的挑战。
全球智算产业一直在寻求更好的网络解决方案,目前来看,全光交叉OXC被认为极具潜力的替代方案。OXC是一种非常灵活的全光交换调度方式,采用集成式互连构建全光交换资源池,具有集成度高、无跳纤全光交换等特点,不仅易扩展、可靠性高、能耗低,日常运维也非常简便。

目前全球主要通信厂商已经推出了面向数据中心的商用OXC设备(DC-OXC),并且在一些先进智算企业中投入了应用。比如打造了Gemini多模态大模型的谷歌,已经在自有的数据中心中采用了上万套OXC设备。英伟达首席科学家Bill Dally也多次向业界建议在智算中心建设中采用OXC技术,认为这项技术可以有效提升网络的可管理性和灵活性。在2024年9月举行的深圳国际光电博览会期间,多个大模型厂商表示准备引入OXC技术。
行业研究机构LightCounting认为,在智算产业的拉动作用下,未来5年OXC设备市场会以28%的增速快速扩张。而2024年9月开放数据中心委员会(ODCC)发布《AI网络光交换机技术报告》,对光交换机在 AI 训练等大规模计算中的应用进行了详细探讨,通过对胖树网络架构和 OXC灵活组网的Ring All-Reduce 性能的对比测试, 结果表明在通信数据量大于4MB后,应用OXC组网会有明显收益,提升了20-34%左右的性能,All to All 性能提升30%左右。
面向DC互联的全光传送网(DC-OTN)轻松打造分布式智算中心
为充分利用不同地域的资源优势,兼顾就近服务客户,很多企业会在不同区域分散配置智算中心。然而当客户需要调用超越单个智算中心的算力时,如何实现海量数据在多个智算中心之间的实时传送和调度就成了一个难题。对此国内电信运营商做过大量探索,面向数据中心间互联的全光传送网(DC-OTN)被认为是当前理想的解决方案。
中国电信在2024年曾做过基于现网的业内首例500公里的长距离DC-OTN技术验证,利用江西永丰、北京大兴、天津武清三地数据中心的千卡智算集群,完成了1024卡千亿参数大模型的分布式联合训练,成功将练性能提升至单数据中心效能的97%以上。这次试验表明,利用高速全光传送网打造广域智算网络,完全可以将不同区域的智算资源汇聚成一个智算集群,实现跨地域、跨层级、跨主体的高效算力协同调度。
中国移动在2024年末也完成了百公里级DC-OTN现网试验,采用800G OTN连接位于不同城市的两个智算集群,共同承担百亿级参数规模的大型基础语言模型,性能达到单节点训练效率的98%以上。
中国联通在2024年也发布了《基于RDMA的长距无损数据搬移技术白皮书》,提出的数据搬移解决方案,通过DC间全光直达的组网架构、长距RDMA提速、端网协同和统一编排等技术,解决海量数据长距传输时易拥塞、效率低的问题,为算力时代下海量数据高速迁移提供了技术支撑。
单体为繁星点点,为一般用户提供就近服务;集合成群体,可为超大规模计算需求提供充足的智算资源。上述试验证明了DC-OTN的可行性和有效性,也为分布式智算集群的演进指明了前进方向,做好了技术方案储备。
如今人工智能正在向各行各业快速渗透,这是一场势不可挡的产业革命,因此市场对智算基础设施的需求只会越来越多。数据中心全光交换技术(DC-OXC)和面向DC互联的全光传送网(DC-OTN)技术可以大幅度提升智算集群部署的灵活性,改善智算中心的性能、可扩展性、可靠性、能耗表现等,有望成为智算产业的主流网络解决方案,助力算力强基行动取得丰硕成果,推动算力网络“点、链、网、面”体系化发展。