微型语言模型项目:MiniMind"大道至简"
github.com/jingyaogong/minimind
本项目的目标是把上手LLM的门槛无限降低, 直接从0开始训练一个极其轻量的语言模型。最快仅用3小时,即可训练出仅为26.88M大小的微型语言模型MiniMind。
MiniMind发布了大模型极简结构,数据集清洗和预处理、监督预训练(Pretrain)、有监督指令微调(SFT)、低秩自适应(LoRA) 微调,无奖励强化学习直接偏好对齐(DPO)的全阶段代码,也包含拓展共享混合专家(MoE) 的稀疏模型;拓展视觉多模态VLM: MiniMind-V。
这不仅是一个开源模型的实现,也是入门大语言模型(LLM)的教程。