百度资深工程师周谞：大模型背后的数据中心光网络演进

C114讯 5月24日消息（岳明）CIOE中国光博会与C114通信网昨日联合举办的“2024中国光通信高质量发展论坛”第四场研讨会——“AI时代：数据中心光互联技术新趋势”正式上线。会议邀请电信运营商、互联网服务商、云计算厂商、模块芯片商、科研院所、业内专家，深入探讨光互联和全光交换的应用及其面临的机遇和挑战。

会上，百度资深工程师周谞应邀作了题为《数据中心光通信技术趋势》的主题演讲，重点介绍了数据中心之间DCI光互联、数据中心内DCN光互联，以及在现有大模型下，OTN与其结合等光通信技术问题。

从灵活系统到智能化运维，助力DCI光互联

周谞表示，在数据中心之间DCI光互联方面，城域单波传输技术大致每3~4年有一次迭代，从2017年至2019年的单波200G，波道间隔50GHz，到2020至2023年单波400G，波道间隔75GHz，到现在已经到来的单波800G，波道间隔150GHz，单波速率的提升能带来成本的降低，也存在速率迭代年限与机房系统使用年限不匹配的矛盾。传统方案中，固定的间隔和限定速率，在应用更新一代的单波传输技术时，使系统难以引入更高速率的电层板卡。

2023年，百度引入了FlexGrid系统，其灵活网格方案波道可变功能，取代传统使用的固定间隔的AWG功能。灵活系统方案可以实现在无需改造条件下，适应不同速率，实现400G和800G系统的平滑升级。根据场景，选择最优的速率，整个系统的频谱得到更好利用，以期在2024年这一800G速率换代时期，取得更好的收益。

此外，随着数据中心之间业务云化，以及云规模的日渐增大，同一云业务可能被部署在不同数据中心，这就对数据中心之间传输稳定性提出更高要求。周谞表示，传统传输系统保护倒换时间大致在50ms，这一时间在电信领域存在近20年，而通过高速磁光开关取代传统的机械式光开关，及优化DSP等，第一次实现了5ms高速保护倒换时间。同时，在设备出现业务中断的情况下，通过传输设备主动介入技术，实现整体网络的相对稳定。

IP over WDM方面，随着光子集成技术的发展，通过封装技术实现光信号直接从交换机出来后具备长距离传输能力，改变传统的需要额外电层设备完成线路到客户的转换过程。当然，这需要IP+光统一网管协同，适用机房之间近距离传输。同时，这种相关光模块对接上，测试中面临着个别厂商模块抗裂化能力差，不同厂商对接上的难题。

在传输的运维和管理上，大部分现有厂商采用的是开放式光传输系统的方案，所有设备通过统一建模，完成设备与网管之间的交互，再通过统一的网管实现对所有设备的管理，提升自动化开发效率。从传统运维，各厂商自己完成从网管到设备，到统一化运维，统一网管，统一运维培训体系，再到智能化运维，本质上是为了更进一步提高效能。

CPO未来有可能成为GPU互联的重要方案

周谞表示，在AI时代，整个数据中心内部对光互联的需求也非常大。HPN网络主要是针对GPU训练集群的专门网络，其里面存在多种训练方式，以实现不同GPU之间信息共享，而GPU 卡之间的通信带宽速率的提升，会带来训练时间的减少，以及成本的降低。但是大模型参数增长非常快，数据中心内光宽带如何跟上节奏，成为非常重要的议题。以 IB/RoCE 为代表的跨GPU 服务器互联技术，当前速率在400G/800G时代，伴随训练规模的变大和算力的提升，未来向1.6T及更高速率发展。虽然现有的交换机加光模块形式能满足一些需求，但却面临更大的成本和功耗压力，这就引出了对线性直驱光模块（LPO）的需求。

相比传统光模块，LPO将DSP功能集成到芯片中，降低了模块的功耗和成本，具有良好的可维护性。当然，除了传统光模块和线性直驱光模块方案外，还有其他也有一些方案，比如联合封装技术（CPO）方案，其将光模块功能集成到芯片上，因光子器件离芯片更近，可实现更低的功耗。随着GPU互联对功耗，带宽的要求，CPO将有可能成为GPU互联的一种重要方案。

OTN与大模型结合方面，百度建立了文心大模型，训练方式包括提示词工程提高大模型唤起的准确率、更高级别的基于人类反馈的强化学习等，让大模型更了解应用场景。整个开发流程可以理解为，用自己的数据生成，注入到大模型训练，得到更理解应用场景的一个大模型，比如OTN大模型，再把这个大模型部署到整个应用环境中，去完成大模型推理等。

周谞表示，OTN和大语言模型的相互结合，是值得去关注的一个方向。因为传统的运维更多的是基于GUI的界面，即图形界面，随着大语言模型的兴起，其实可以很好的实现人机基于自然语言的对话，慢慢地可能会形成GUI和LUI，即图形交互和自然语言交互的一个运维场景，得到更加懂我们的OTN大模型。

玩酷网

百度资深工程师周谞：大模型背后的数据中心光网络演进

C114通信网