玩酷网

大模型告别先背书再刷题同时监督和强化微调大模型谁说“先背书再刷题”是大模型训练的

大模型告别先背书再刷题同时监督和强化微调大模型

谁说“先背书再刷题”是大模型训练的标配?

中科院自动化所和美团,推出了一种新颖的单阶段微调方法SRFT,让大模型可以在一个流程中同时“背书+刷题”。

传统训练方式中,监督微调(SFT)模仿专家解法、强化学习(RL)则靠试错摸索,但两者各有短板——SFT像死记硬背,RL效率低易崩盘。这种分阶段方式不仅效率低,还容易忘记前面学的内容。

而SRFT改变了这一切。它引入熵感知机制,智能权衡“听专家讲”和“自己动手做”两类数据:模型迷糊时少依赖演示,稳定后再靠演示巩固;强化训练部分也用熵做权重调控,确保模型在探索中不迷路。

结果很硬核:在五个数学推理任务中,SRFT准确率提升9个百分点;在分布外任务上也有明显提升,泛化能力更强。同时,它的训练速度比传统方法快两倍多,响应更长,推理更细致。