《我训练了一个语言模型来用 GRPO 安排日程活动！》huggingface.c

《我训练了一个语言模型来用 GRPO 安排日程活动！》

huggingface.co/blog/anakin87/qwen-scheduler-grpo

"2025 年，在 DeepSeek 热潮之后，每个人都想用 GRPO 训练自己的推理模型。

作为一个实践派，我也跃跃欲试：仅通过提示和奖励让语言模型学习——不同于监督微调，无需完成样本——这太令人着迷了。

网上大多数例子都在用 GSM8K 或倒计时游戏训练模型。我想尝试些原创内容，亲手实践一番。

于是我想：能不能训练一个模型，让它根据事件列表和优先级来制定日程安排呢？

初期实验表明，ChatGPT 大体能解决这类问题，而小型语言模型（14B 参数以下）则表现欠佳。这真是个不错的挑战！

当时我没意识到，选择一个原创性问题会迫使我思考问题设定、生成数据、选择基础模型、设计奖励函数，并进行多轮训练，同时祈祷模型能真正学到东西。

有许多东西要学，而这正是我想在本文中与大家分享的。"

对应的github库：github.com/anakin87/qwen-scheduler-grpo

AI创造营

玩酷网