DeepSeek开源周:DualPipe和Fire-Flyer文件系统

喜欢花科技君 2025-03-06 06:43:05

DeepSeek在开源周的第四天和第五天分别开源了DualPipe & EPLB和Fire-Flyer文件系统(3FS)。

DualPipe & EPLB

DualPipe(双向流水线并行算法)

功能:针对大模型训练中的流水线并行问题,通过双向调度优化计算与通信的重叠效率。DualPipe通过双向数据流设计,动态调整任务分配,减少GPU空闲时间。技术亮点:双向调度:允许前向传播与反向传播同时进行,最大化GPU利用率。动态资源分配:根据任务负载实时调整计算资源,避免因任务不均衡导致的性能瓶颈。应用场景:主要用于DeepSeek V3/R1模型的训练,优化多GPU集群下的训练效率,尤其适合混合专家(MoE)架构。Github:https://github.com/deepseek-ai/DualPipe国产显卡支持:MT-DualPipe可以完整接入摩尔线程 MT-Megatron框架和MT-TransformerEngine框架(即将开源),实现DeepSeek V3训练流程的完整复现。(https://github.com/MooreThreads/MT-DualPipe)。

EPLB(专家并行负载均衡器)

功能:在专家并行场景下,自动平衡不同GPU上的专家模型任务负载。当某些专家模型任务过重时,EPLB会将任务复制到空闲GPU,避免资源闲置。意义:显著提升MoE模型的训练吞吐量,降低硬件资源浪费,尤其适合大规模分布式训练。Fire-Flyer文件系统(3FS)

3FS是一个高性能并行文件系统,专为AI训练和推理中的数据存储瓶颈设计。

GitHub:https://github.com/deepseek-ai/3FS

国产显卡支持:3FS CSI Driver(https://github.com/MooreThreads/csi-driver-3fs)

核心功能

高吞吐存储:通过结合现代SSD和RDMA网络技术,支持高速数据访问。强一致性保障:采用链式复制与分配查询(CRAQ)协议,确保分布式环境下的数据一致性。推理KVCache:提供高吞吐、低成本的缓存方案,替代传统内存缓存。

KVCache通过缓存注意力机制中的Key(K)和Value(V)中间结果,避免重复计算。

具体流程如下:

首次计算:在生成第一个token时,模型计算输入序列的Key和Value,并将它们缓存到内存或显存中。

后续生成:在生成后续token时,模型直接复用缓存的Key和Value,只需计算新token的Query(Q)和注意力分数,从而大幅减少计算量。

动态更新:随着生成序列的增长,KVCache会动态扩展,确保缓存始终覆盖当前生成上下文。

技术亮点

分离式架构:支持分布式存储节点灵活扩展,应用程序可跨位置访问资源。无状态元数据服务:基于事务性键值存储(如FoundationDB),简化开发复杂度。成本效益:相比传统存储方案,3FS在相同硬件条件下可降低30%的存储成本。

0 阅读:0

喜欢花科技君

简介:感谢大家的关注