玩酷网

一个从头实现 DeepSeek R1 的 GRPO 算法的项目github.co

一个从头实现 DeepSeek R1 的 GRPO 算法的项目

github.com/policy-gradient/GRPO-Zero

该实现的依赖很少,无需依赖 transformers 和 vLLM ,且 GPU 内存占用极低。并在原始 GRPO 算法基础上做了多项改进。

AI创造营 ​​​