MoE以小搏大!见证“源2.0-M32”推动大模型智能涌现

智能也得细细瞧 2024-05-31 11:56:34

浪潮信息与5月28日重磅发布“源2.0-M32”开源大模型,旨在追求更高效的智能涌现。该模型在继承了“源2.0”系列成果的基础上,前瞻性引入了“基于注意力机制的门控网络”技术,构建包含32个专家(Expert)的混合专家模型(MoE),并大幅提升了模型算力效率,模型运行时激活参数为37亿,在业界主流基准评测中,性能媲美700亿参数的LLaMA3开源大模型。

在传统的MoE模型中,尽管通过多个专家模型的协同工作提升了模型的泛化能力,但它们在专家调度策略上存在局限。特别是在选择两个或多个专家参与计算时,传统门控网络往往忽略了专家之间的协同性,导致模型精度和效率受限。

源2.0-M32提出并采用了一种新型的算法结构:基于注意力机制的门控网络(Attention Router),针对MoE模型核心的专家调度策略,这种新的算法结构关注专家模型之间的协同性度量,有效解决传统门控网络下,选择两个或多个专家参与计算时关联性缺失的问题,使得专家之间协同处理数据的水平大为提升。此外,源2.0-M32采用源2.0-2B为基础模型,沿用并融合局部过滤增强的注意力机制(LFA, Localized Filtering-based Attention),通过先学习相邻词之间的关联性,然后再计算全局关联性的方法,能够更好地学习到自然语言的局部和全局的语言特征,对于自然语言的关联语义理解更准确,进而提升了模型精度。

在数据层面,源2.0-M32基于2万亿的token进行训练、覆盖万亿量级的代码、中英文书籍、百科、论文及合成数据。大幅扩展代码数据占比至47.5%,从6类最流行的代码扩充至619类,并通过对代码中英文注释的翻译,将中文代码数据量增大至1800亿token。

在算力层面,源2.0-M32采用了流水并行的方法,综合运用流水线并行+数据并行的策略,显著降低了大模型对芯片间P2P带宽的需求,为硬件差异较大的训练环境提供了一种高性能的训练方法。

在大模型的发展进程中,浪潮信息始终未曾停止上下求索的步伐。未来,浪潮信息将持续致力于算法和模型架构的创新与优化,不断降低模型在预训练、微调和推理等核心应用场景中的算力门槛,并通过精心设计模型和优化训练流程,提升模型的运算效率,推动产业智能化的快速发展,让大模型深度赋能千行百业。

源2.0-M32 相关地址:

项目开源地址:

https://github.com/IEIT-Yuan/Yuan2.0-M32

模型下载:

Huggingface地址:

https://huggingface.co/IEITYuan/Yuan2-M32-hf

ModelScope地址:

https://modelscope.cn/models/YuanLLM/Yuan2-M32-hf/summary

Wisemodel地址:

https://www.wisemodel.cn/models/IEIT-Yuan/Yuan2-M32-hf

0 阅读:2

智能也得细细瞧

简介:感谢大家的关注