DeepSeek再放大招!开源王炸DeepEP究竟是什么?

探索要高音 2025-03-11 12:35:20



2月25日,开源领域又迎来一颗重磅炸弹!DeepSeek开源了全球首个面向MoE模型的全栈通信库DeepEP,一经发布,就在GitHub上收获了1500星的收藏量,直接让AI圈“炸开了锅”。这一开源举措,实实在在地缓解了从业者的算力焦虑。

可能有人会疑惑,DeepEP到底厉害在哪?打个比方,把AI数据传输想象成双十一快递驿站的包裹搬运,2048个“快递小哥”(GPU)要在200个“仓库”(服务器)间运送“包裹”(AI数据)。以往的传输方式就像让快递小哥们蹬三轮送货,效率有限;而DeepEP则给他们配备了“磁悬浮 + 量子传送”套装,信息传递又稳又快。

DeepEP的优势体现在多个方面。先看它对运输规则的变革。英伟达的NVLink技术,能让GPU之间直接互连,双向互传速度可达1.8TB/S,对大模型发展至关重要。但DeepEP更胜一筹,优化后的NVLink,让同个“仓库”的“快递员”(GPU)之间,数据传输速度高达每秒158GB/s,就像给他们铺上了磁悬浮轨道。另外,DeepEP还融入了RDMA技术的低延迟内核,不同“城市”(服务器)的“仓库”之间,数据能像“量子传送”一样快速传输,每“架飞机”(网卡)运力达每秒47GB,而且还能实现计算与通信重叠,不用再停机等待。

DeepEP还有智能分拣的“黑科技”。在MoE模型中,当数据需要分发给不同“专家”(子网络)时,传统方式如同分拣员逐个拆箱检查,效率低下。而DeepEP的“调度 - 组合”系统,就像拥有“最强大脑”,能预知一切。训练预填充模式下,4096个数据包能同时在智能传送带上,自动识别是“同城件”还是“跨城件”;推理预填充模式时,128个“加急包裹”能走VIP通道,163微秒就能送达,比人类眨眼还快5倍。遇到流量高峰,它还能通过动态变轨技术,迅速切换传输模式,各种场景都能完美适配。

不得不提的还有DeepEP的FP8“缩骨术”。平常数据用标准“箱子”(FP32/FP16格式)传输,DeepEP却能把数据压缩成“微型胶囊”(FP8格式),同样的“卡车”(传输通道)能多装3倍数据。更神奇的是,这些“胶囊”到目的地后还能自动恢复原状,既节省传输成本,又能提高传输效率。

这套强大的系统在DeepSeek自家的H800 GPU集群中进行了实测,效果惊人:同城数据传输速度提升3倍,跨城延迟低到几乎让人察觉不到,实现了真正的“无感传输”,就像快递小哥骑车时顺手把包裹塞进快递柜一样自然流畅。

DeepSeek开源DeepEP,意义非凡,就好比把顺丰的无人分拣系统图纸公开。以前需要2000台GPU才能完成的重型任务,现在几百台就能轻松搞定。

其实在这之前,DeepSeek在“开源周”就发布了第一项成果——FlashMLA(快速多头潜在注意力机制)代码,这也是降低大模型训练成本的关键技术。DeepSeek正通过一系列开源举措,努力缓解产业链上下游的成本压力。此前,潞晨科技创始人尤洋曾在社交媒体发文提到,中国的MaaS模式短期内可能不太乐观。以每日输出1000亿token为例,基于DeepSeek的服务每月机器成本4.5亿元,亏损4亿元;用AMD芯片月收入4500万元,机器成本2.7亿元,亏损也超2亿元。在这样的大环境下,DeepSeek的开源成果显得更加珍贵。

0 阅读:0

探索要高音

简介:感谢大家的关注