DeepSeek在开源周的第四天和第五天分别开源了DualPipe & EPLB和Fire-Flyer文件系统(3FS)。
DualPipe & EPLBDualPipe(双向流水线并行算法)
功能:针对大模型训练中的流水线并行问题,通过双向调度优化计算与通信的重叠效率。DualPipe通过双向数据流设计,动态调整任务分配,减少GPU空闲时间。技术亮点:双向调度:允许前向传播与反向传播同时进行,最大化GPU利用率。动态资源分配:根据任务负载实时调整计算资源,避免因任务不均衡导致的性能瓶颈。应用场景:主要用于DeepSeek V3/R1模型的训练,优化多GPU集群下的训练效率,尤其适合混合专家(MoE)架构。Github:https://github.com/deepseek-ai/DualPipe国产显卡支持:MT-DualPipe可以完整接入摩尔线程 MT-Megatron框架和MT-TransformerEngine框架(即将开源),实现DeepSeek V3训练流程的完整复现。(https://github.com/MooreThreads/MT-DualPipe)。EPLB(专家并行负载均衡器)
功能:在专家并行场景下,自动平衡不同GPU上的专家模型任务负载。当某些专家模型任务过重时,EPLB会将任务复制到空闲GPU,避免资源闲置。意义:显著提升MoE模型的训练吞吐量,降低硬件资源浪费,尤其适合大规模分布式训练。Fire-Flyer文件系统(3FS)3FS是一个高性能并行文件系统,专为AI训练和推理中的数据存储瓶颈设计。
GitHub:https://github.com/deepseek-ai/3FS
国产显卡支持:3FS CSI Driver(https://github.com/MooreThreads/csi-driver-3fs)
核心功能
高吞吐存储:通过结合现代SSD和RDMA网络技术,支持高速数据访问。强一致性保障:采用链式复制与分配查询(CRAQ)协议,确保分布式环境下的数据一致性。推理KVCache:提供高吞吐、低成本的缓存方案,替代传统内存缓存。KVCache通过缓存注意力机制中的Key(K)和Value(V)中间结果,避免重复计算。
具体流程如下:
首次计算:在生成第一个token时,模型计算输入序列的Key和Value,并将它们缓存到内存或显存中。
后续生成:在生成后续token时,模型直接复用缓存的Key和Value,只需计算新token的Query(Q)和注意力分数,从而大幅减少计算量。
动态更新:随着生成序列的增长,KVCache会动态扩展,确保缓存始终覆盖当前生成上下文。
技术亮点
分离式架构:支持分布式存储节点灵活扩展,应用程序可跨位置访问资源。无状态元数据服务:基于事务性键值存储(如FoundationDB),简化开发复杂度。成本效益:相比传统存储方案,3FS在相同硬件条件下可降低30%的存储成本。