超长推理还能节省计算提升模型推理效率新方法
大模型推理效率怎么提升?Salesforce AI Research开源了两个方案:Elastic Reasoning和Fractured Sampling。
Elastic Reasoning主打“想多少、答多少”。它不再让模型无限生成推理链,而是把“思考”和“解题”分开设定token预算,用完思考预算后立刻转入答题。这种方式不仅让答案更完整,效率也提升了30%。比如E1-Math-1.5B模型,就在准确率领先的同时,用更少训练资源达到了更优表现。
Fractured Sampling则鼓励模型“少想早答”。它把推理过程在时间上切割,对每条推理链做“提前停想”,沿三个维度采样:思考路径数n、每路径答案数m、思考深度H。实验发现,提升H带来的性能收益远高于其他两个维度。DeepSeek-R1等模型在应用后,token减少约20%,精度还能升。
两个方法都有一个目标:在推理预算有限时,也能交出漂亮答卷。不仅让大模型“又快又准”,还在编程和数学任务中表现出色。