玩酷网

OpenAI发了篇博客分析为啥上次自己的模型出现了大规模谄媚行为。大概原因是I尝

OpenAI发了篇博客分析为啥上次自己的模型出现了大规模谄媚行为。

大概原因是I尝试引入了基于用户反馈(如ChatGPT中的点赞和点踩数据)的额外奖励信号,通常这很有用,但此次更新中,这些变化可能共同削弱了控制谄媚行为的主要奖励信号的影响力,用户反馈倾向于更易接受的回应,可能放大了这种转变,用户记忆有时也会加剧谄媚效应。

同时,在内测和A/B测试中,也没有发现该问题。(可能刚开始人们被拍马屁会觉得还挺舒服?). 后续改进手段包括更严格的行为评估、增加“alpha”测试阶段、重视互动测试、优化离线评估与A/B实验、加强模型行为原则评估及更主动沟通等。

AI创造营