MoE以小搏大！见证“源2.0-M32”推动大模型智能涌现

浪潮信息与5月28日重磅发布“源2.0-M32”开源大模型，旨在追求更高效的智能涌现。该模型在继承了“源2.0”系列成果的基础上，前瞻性引入了“基于注意力机制的门控网络”技术，构建包含32个专家（Expert）的混合专家模型（MoE），并大幅提升了模型算力效率，模型运行时激活参数为37亿，在业界主流基准评测中，性能媲美700亿参数的LLaMA3开源大模型。

在传统的MoE模型中，尽管通过多个专家模型的协同工作提升了模型的泛化能力，但它们在专家调度策略上存在局限。特别是在选择两个或多个专家参与计算时，传统门控网络往往忽略了专家之间的协同性，导致模型精度和效率受限。

源2.0-M32提出并采用了一种新型的算法结构：基于注意力机制的门控网络（Attention Router），针对MoE模型核心的专家调度策略，这种新的算法结构关注专家模型之间的协同性度量，有效解决传统门控网络下，选择两个或多个专家参与计算时关联性缺失的问题，使得专家之间协同处理数据的水平大为提升。此外，源2.0-M32采用源2.0-2B为基础模型，沿用并融合局部过滤增强的注意力机制（LFA, Localized Filtering-based Attention），通过先学习相邻词之间的关联性，然后再计算全局关联性的方法，能够更好地学习到自然语言的局部和全局的语言特征，对于自然语言的关联语义理解更准确，进而提升了模型精度。

在数据层面，源2.0-M32基于2万亿的token进行训练、覆盖万亿量级的代码、中英文书籍、百科、论文及合成数据。大幅扩展代码数据占比至47.5%，从6类最流行的代码扩充至619类，并通过对代码中英文注释的翻译，将中文代码数据量增大至1800亿token。

在算力层面，源2.0-M32采用了流水并行的方法，综合运用流水线并行+数据并行的策略，显著降低了大模型对芯片间P2P带宽的需求，为硬件差异较大的训练环境提供了一种高性能的训练方法。

在大模型的发展进程中，浪潮信息始终未曾停止上下求索的步伐。未来，浪潮信息将持续致力于算法和模型架构的创新与优化，不断降低模型在预训练、微调和推理等核心应用场景中的算力门槛，并通过精心设计模型和优化训练流程，提升模型的运算效率，推动产业智能化的快速发展，让大模型深度赋能千行百业。

源2.0-M32 相关地址：

项目开源地址：

https://github.com/IEIT-Yuan/Yuan2.0-M32

模型下载：

Huggingface地址：

https://huggingface.co/IEITYuan/Yuan2-M32-hf

ModelScope地址：

https://modelscope.cn/models/YuanLLM/Yuan2-M32-hf/summary

Wisemodel地址：

https://www.wisemodel.cn/models/IEIT-Yuan/Yuan2-M32-hf

玩酷网

MoE以小搏大！见证“源2.0-M32”推动大模型智能涌现

智能也得细细瞧