玩酷网

OpenAI揭秘幻觉根本原因OpenAI否定现有模型训练方法OpenAI最新论文

OpenAI揭秘幻觉根本原因OpenAI否定现有模型训练方法

OpenAI最新论文暗示,以现有技术路径,幻觉问题几乎无解。讽刺的是,模型越聪明,幻觉反而越多。

其原因不在技术实现,而是现有测评标准鼓励模型“乱猜”。

具体来说,现在的评测基准,如果模型老实说“不知道”,就是零分;而如果随便蒙一个答案,蒙对了还可能得分更高。

长期下来,模型越来越倾向于“蒙回答”。大模型懂得多,更容易自以为是,从而一本正经胡说八道。而小模型因为完全不懂,往往选择拒答,错误率反而更低;

论文的结论还有:

- LLM回答准确率不可能达到100%,因为有些问题本身无解。

- 模型回答“我不知道”时,不应看作幻觉。

- 有时小模型不知道就说不知道,反而比大模型靠谱。

- 幻觉是统计训练与错误评估共同作用的产物。

解决这些问题的方法也不难:彻底重做评估体系。

如果排行榜仍只看准确率,就等于鼓励模型猜测,幻觉也必然存在。

只有当“不确定”或“不知道”也能获得合理分数时,模型才会倾向于谨慎,而不是硬给一个看上去正确的假答案。

论文链接:cdn.openai.com/pdf/d04913be-3f6f-4d2b-b283-ff432ef4aaa5/why-language-models-hallucinate.pdf