玩酷网

《我训练了一个语言模型来用 GRPO 安排日程活动!》huggingface.c

《我训练了一个语言模型来用 GRPO 安排日程活动!》

huggingface.co/blog/anakin87/qwen-scheduler-grpo

"2025 年,在 DeepSeek 热潮之后,每个人都想用 GRPO 训练自己的推理模型。

作为一个实践派,我也跃跃欲试:仅通过提示和奖励让语言模型学习——不同于监督微调,无需完成样本——这太令人着迷了。

网上大多数例子都在用 GSM8K 或倒计时游戏训练模型。我想尝试些原创内容,亲手实践一番。

于是我想:能不能训练一个模型,让它根据事件列表和优先级来制定日程安排呢?

初期实验表明,ChatGPT 大体能解决这类问题,而小型语言模型(14B 参数以下)则表现欠佳。这真是个不错的挑战!

当时我没意识到,选择一个原创性问题会迫使我思考问题设定、生成数据、选择基础模型、设计奖励函数,并进行多轮训练,同时祈祷模型能真正学到东西。

有许多东西要学,而这正是我想在本文中与大家分享的。"

对应的github库:github.com/anakin87/qwen-scheduler-grpo

AI创造营