玩酷网

tiny-mixtral 175M MoE项目,从头实现一个简单的MoE模型gi

tiny-mixtral 175M MoE项目,从头实现一个简单的MoE模型

github.com/kabir2505/tiny-mixtral

本项目是对专家混合模型 (MoE)架构的简化重实现,灵感来源于论文 "Mixtral of Experts: 高效语言建模的稀疏专家混合"。其目标是以轻量级且具有教育意义的方式,复现稀疏路由、专家选择和缓存策略等核心思想。

AI创造营