huggingface官方出了个DeepSeek-R1 的复现项目,叫open-r1。。也是出息了,之前都是国内出复现o1、复现sora的项目,这次开始被复现了
github.com/huggingface/open-r1
Open R1 是一个开源项目,旨在完整复现 DeepSeek-R1(深度求索公司开发的智能体模型)的技术框架,并推动社区协作进一步完善。该项目通过模块化设计简化了复现流程,目标是让研究者和开发者能够自由复现、改进并基于 R1 的技术路线构建自己的模型。
核心目标:
⭐开源复现:填补 DeepSeek-R1 技术流程中的缺失环节,提供可复现的训练、评估和数据生成工具。
⭐协作共建:通过社区力量逐步完善模型训练流程(如数据生成、强化学习优化等)。
⭐技术透明化:以代码和文档形式公开 R1 的实现细节,降低技术门槛。
项目分三步推进,参考 DeepSeek-R1 技术报告:
⭐复现 R1-Distill:
通过蒸馏(Distillation)从原始 DeepSeek-R1 提取高质量知识库,训练轻量级模型。
⭐复现 R1-Zero:
构建纯强化学习(RL)训练流程,需大规模数学、推理和代码数据支持。
⭐多阶段训练验证:
展示从基础模型到多阶段 RL 调优的全流程,验证技术可行性。