你有没有过这种感觉,明明AI给出的答案看起来很正确,但用起来就是差点意思?就像给狗训练,你光说“对,好样的”,它可能还是get不到你到底要它干啥。

最近普林斯顿大学的研究就说了,光靠“准确”来衡量AI好不好,可能还真不够。这事儿得从奖励模型(RM)说起。现在训练AI,尤其是那些大语言模型,很大程度上依赖于奖励模型。简单说,就是先让AI生成一堆答案,然后让RM来打分,告诉AI哪个答案更好。但问题来了,这个RM怎么才算好呢?大家可能觉得,那当然是越准确越好啊!可是,普林斯顿这帮人偏偏不这么看。他们发现,就算RM非常准确,如果它给出的奖励都差不多,那AI的进步速度就会变得非常慢。为啥?

因为目标图景太平坦了,AI找不到方向。这就有点像考试,如果老师给所有人都打90分,那大家还有啥动力去追求100分呢?这个研究里有个很重要的点:奖励的方差。简单说,就是奖励之间差异的大小。如果RM给出的奖励方差很小,那AI就很难区分哪个答案更好,进步自然就慢了。更让人惊讶的是,他们还发现,对一种语言模型很有效的RM,换到另一种语言模型上,可能就没那么好用了。这说明啥?说明设计RM的时候,不能只考虑准确度,还要考虑到具体的语言模型。斯坦福大学的Rajan Vivek也说了,要让奖励更细粒度,也就是要诱导奖励方差。

他给出了几个小技巧,比如在最小对比对上训练,让RM能够区分那些细微的差别。这就像训练狗的时候,不能只说“好”,还要告诉它哪里好,好在哪里。这事儿听起来有点抽象,咱们举个例子。假设你要训练AI写,如果RM只看有没有错别字,那AI可能只会专注于避免错误,而忽略了的创新性和思想性。但如果RM能够根据的立意、结构、语言风格等多个维度来打分,并且给出差异化的奖励,那AI才能更好地学习如何写出优秀的。仅这一个例子,就足以说明奖励方差的重要性。与普遍认知不同,光有准确度是不够的。准确度只能保证AI不犯错,但奖励方差才能让AI找到进步的方向。当我们习惯性地将AI训练的重点放在准确度上时,是否忽略了奖励方差的重要性呢?

这个研究也给我们带来了一些思考。首先,在设计RM的时候,不能只追求准确度,还要考虑到奖励方差。其次,不同的语言模型可能需要不同的RM。最后,要不断探索新的方法,让奖励更加细粒度,诱导奖励方差。说白了,训练AI就像教育孩子,不能只看分数,还要关注孩子的全面发展。要让孩子找到自己的兴趣和方向,才能真正地进步。所以,下次当你觉得AI给出的答案不够好时,不妨想想,是不是奖励模型出了问题?是不是奖励方差太小了?说不定,换个思路,就能让AI焕发新的生命力。毕竟,谁也不想看到一个只会背书的“AI书呆子”。