面向未来的算力网络连接发展趋势分析

薪科技快评 2024-09-22 18:56:18
面向未来的算力网络连接发展特点与实践

AI算力研究:英伟达B200再创算力奇迹,液冷、光模块持续革新

英伟达隆重宣布新一代Blackwell架构,华为对GPU算力需求高达百万片。

英伟达发布的GB200 NVL72 机架级系统内部包括 72 个 Blackwell GPU 和 36 个Grace CPU,引入了第五代 NVLink,其中GPU采用高速铜缆实现电连接,配置5000 根NVLink 铜缆(主要是224G)。铜缆方案或将成为未来趋势。

交换机是算力网络的核心,可以为接入交换机的任意两个网络节点提供独享的电信号通路,具备大缓存、高容量、虚拟化等特征,是算力网络高效传输的基石。随着大数据、云计算、大模型等新型信息技术的发展,对现代通信网络提出了更高的要求。近年来,400G交换机逐渐进入大型数据中心,正在成为大型数据中心的首要选择 。

铜缆是一种成本低、柔韧性好、可塑性强的线缆类型,适用于大多数应用环境。铜缆双绞线是由多股铜芯以特定规则扭绞在一起的线缆类型,在电力输送和网络通信领域应用广泛。结合铜缆自身的优缺点,2022年诞生了一种使用铜缆的400G传输协议,将同轴高速线用在距离较短的机柜内传输。这种协议可以提高数据传输速度,同时降低成本。

光纤传输在时延、带宽和损耗方面相较于铜缆具有明显优势。随着大数据和高性能计算机的快速发展,对算力和网络传输提出了更高要求。因此,亟需加快波分复用光纤(WDM)、CPO、空芯光纤等新型光纤技术的研究与应用。

在51.2T交换机时代,CPO技术凭借其更快更稳定的光传输特性,将确保网络通信能够满足新时代的应用需求。同时,空芯光纤在高性能光通信领域的潜力已得到验证,具备超低时延和宽谱特性等潜在应用前景。

铜缆双绞线的传输距离较短,且存在信号衰减等问题,在数据中心内仅用于设备管理和基础设施设备通信,而不能作为高速传输介质使用。光纤利用光的全反射原理进行信号传输,具有速度快、低衰减、高带宽等特性,通常传输距离100米以上就需要考虑光纤传输,且100G及以上的传输速率超过柜间级别的传输就基本只能使用光纤,如果采用单模光纤传输甚至可达到数公里。光纤常应于柜间、模块间以及数据中心之间互联,完全满足了传统电信业务机房和消费互联网业务为主的数据中心互连需求。

非屏蔽铜缆抗干扰能力一般,数据传输容易被监控,仅需物理连接即可获取传输号,甚至控制交互。断裂的铜缆可拼接继续使用,不影响信号传输。屏蔽铜缆有效避免干扰信号,提升安全性。光纤传输的光脉冲难以检测监控,成本高,断裂需特定设备熔接和机械拼接,难度大。

400G传输技术标准的命名规则如下,以SR结尾的表示多模传输,以DR、ER、LR、FR等结尾的通常是基于单模传输,CR是基于同轴的传输形式。IEEE802.3工作组对400G 光模块的命名规则进行了定义,例如400G SR4.2的名称中,400G代表速率是400Gbps,S代表数据中心内部机柜之间互连,距离一般在150米以内,4代表光纤对数,也就是8芯光纤,2代表每芯光纤上有2个波长。

"在国家“东数西算”宏大战略的推动下,数字中国正迈向深度建设。各领域如电商、娱乐、教育和媒体等,在信息化与人工智能大模型的崛起中,对计算能力的需求日益增长。400G交换机的商用逐渐普及,以其超高带宽、超低时延和极具成本效益的特点,有效解决了电信供应商、大型数据中心及企业面临的流量持续激增的挑战。"

在400G网络布线阶段,各种因素会影响到网络布线的设计。这些因素包括单通道速率、调制方案、波分复用技术类型、传输距离的长短、网络传输接口形式、光纤类型、MTP/MPO系统的Pin针及极性、是否采用预端接布线系统,以及是否考虑使用智能系统AIM或DCIM进行管理等。其中,传输距离是最主要的影响因素。

400G网络传输方式有四种:单通道型,即端口与端口的简单直接连接;四通道并行传输,即采用多个单通道的并行传输;多通道扇出/聚合,即光模块端向下扇出多个单通道/多通道速率的端口;单通道内多波长并行传输,此连接方式主要用于多模型收发器。

400G网络布线方案需要先根据机房平面图以及网络拓扑图来界定交换机端和服务器端的连接数量及对应的长度,明确配线架的密度和水平缆的类型,再按自下往上的顺序进行端口需求分析,明确连接头的类型与跳线的选择,最后得出网络布线传输方案。在高端数据中心建设当中,400G超高密度ENSPACE预端接光产品解决方案是较为成熟可靠的方案之一 。

算力网络将加快向800G、1.6T等下一代互联速率演进。中国已启动800G的标准化和测试研究。IEEE、OIF、IPEC、CCSA等组织目前正在加速推动800G标准研制工作。2019 年中国信通院与华为等启动DCCNG项目,研究800G的关键技术与应用,并将部分成果应用到IEEE国际标准中;2021年,中国信通院联合中国移动、中国电信、华为和思博伦等启动800G测试研究项目。

2022年发布的51.2T交换芯片支持64端口800Gb/s,标志着800G以太网的开发进入了实际的硬件阶段。2023年,IEEE发布了第一版IEEE802.3df标准,该标准定义了800G以太网的物理层规范。同时,OIF也发布了224 Gb/s标准,为构建800G和1.6T系统提供了112 Gb/s和224 Gb/s通道的指导。按照行业趋势中CPO2-3年的静默期来看,1.6T网络开发预计将在2025年完成。

中国算力网络发展正逐步迈向算网一体的新阶段。在此之前,我们首先实现了算网协同,优化了基础设施布局,并实现了云计算与网络资源的对接。尽管编排管理层和基础设施层的算网设施在此时仍保持独立,但通过资源协同,我们成功地向客户层输出了算网一体的产品。

在算网融合阶段,基础设施层实现“算”和“网”的初步融合,编排管理层统一管理、编排、调度和运维,服务层持续输出一体化服务。逻辑架构方面,资源管理和服务调度相互融合,呈现真正意义上的“算网产品”。

最终目标是实现算力网络的完全共生,打破技术边界。用户可直接使用多层次、统一化的算力资源,实现存储、计算与网络的融合发展。

关于新型智算中心改造的报告,其中提到了网络成为大模型训练的瓶颈,节点内外多方案并存等问题。

-对此,您有什么看法见解?-

-欢迎在评论区留言探讨和分享。-

0 阅读:10

薪科技快评

简介:薪科技评说,发现技术的点滴,记录科学的飞跃!