DeepSeek再放大招！开源王炸DeepEP究竟是什么？

2月25日，开源领域又迎来一颗重磅炸弹！DeepSeek开源了全球首个面向MoE模型的全栈通信库DeepEP，一经发布，就在GitHub上收获了1500星的收藏量，直接让AI圈“炸开了锅”。这一开源举措，实实在在地缓解了从业者的算力焦虑。

可能有人会疑惑，DeepEP到底厉害在哪？打个比方，把AI数据传输想象成双十一快递驿站的包裹搬运，2048个“快递小哥”（GPU）要在200个“仓库”（服务器）间运送“包裹”（AI数据）。以往的传输方式就像让快递小哥们蹬三轮送货，效率有限；而DeepEP则给他们配备了“磁悬浮 + 量子传送”套装，信息传递又稳又快。

DeepEP的优势体现在多个方面。先看它对运输规则的变革。英伟达的NVLink技术，能让GPU之间直接互连，双向互传速度可达1.8TB/S，对大模型发展至关重要。但DeepEP更胜一筹，优化后的NVLink，让同个“仓库”的“快递员”（GPU）之间，数据传输速度高达每秒158GB/s，就像给他们铺上了磁悬浮轨道。另外，DeepEP还融入了RDMA技术的低延迟内核，不同“城市”（服务器）的“仓库”之间，数据能像“量子传送”一样快速传输，每“架飞机”（网卡）运力达每秒47GB，而且还能实现计算与通信重叠，不用再停机等待。

DeepEP还有智能分拣的“黑科技”。在MoE模型中，当数据需要分发给不同“专家”（子网络）时，传统方式如同分拣员逐个拆箱检查，效率低下。而DeepEP的“调度 - 组合”系统，就像拥有“最强大脑”，能预知一切。训练预填充模式下，4096个数据包能同时在智能传送带上，自动识别是“同城件”还是“跨城件”；推理预填充模式时，128个“加急包裹”能走VIP通道，163微秒就能送达，比人类眨眼还快5倍。遇到流量高峰，它还能通过动态变轨技术，迅速切换传输模式，各种场景都能完美适配。

不得不提的还有DeepEP的FP8“缩骨术”。平常数据用标准“箱子”（FP32/FP16格式）传输，DeepEP却能把数据压缩成“微型胶囊”（FP8格式），同样的“卡车”（传输通道）能多装3倍数据。更神奇的是，这些“胶囊”到目的地后还能自动恢复原状，既节省传输成本，又能提高传输效率。

这套强大的系统在DeepSeek自家的H800 GPU集群中进行了实测，效果惊人：同城数据传输速度提升3倍，跨城延迟低到几乎让人察觉不到，实现了真正的“无感传输”，就像快递小哥骑车时顺手把包裹塞进快递柜一样自然流畅。

DeepSeek开源DeepEP，意义非凡，就好比把顺丰的无人分拣系统图纸公开。以前需要2000台GPU才能完成的重型任务，现在几百台就能轻松搞定。

其实在这之前，DeepSeek在“开源周”就发布了第一项成果——FlashMLA（快速多头潜在注意力机制）代码，这也是降低大模型训练成本的关键技术。DeepSeek正通过一系列开源举措，努力缓解产业链上下游的成本压力。此前，潞晨科技创始人尤洋曾在社交媒体发文提到，中国的MaaS模式短期内可能不太乐观。以每日输出1000亿token为例，基于DeepSeek的服务每月机器成本4.5亿元，亏损4亿元；用AMD芯片月收入4500万元，机器成本2.7亿元，亏损也超2亿元。在这样的大环境下，DeepSeek的开源成果显得更加珍贵。

玩酷网

DeepSeek再放大招！开源王炸DeepEP究竟是什么？

探索要高音