玩酷网

一个从头实现 DeepSeek R1 的 GRPO 算法的项目github.co

2025-05-19 19:49:19 蚁工厂科技

一个从头实现 DeepSeek R1 的 GRPO 算法的项目

github.com/policy-gradient/GRPO-Zero

该实现的依赖很少，无需依赖 transformers 和 vLLM ，且 GPU 内存占用极低。并在原始 GRPO 算法基础上做了多项改进。

AI创造营

阅读：1 点赞：0