OpenAI发了篇博客分析为啥上次自己的模型出现了大规模谄媚行为。大概原因是I尝

2025-05-04 11:55:22 蚁工厂科技

OpenAI发了篇博客分析为啥上次自己的模型出现了大规模谄媚行为。

大概原因是I尝试引入了基于用户反馈（如ChatGPT中的点赞和点踩数据）的额外奖励信号，通常这很有用，但此次更新中，这些变化可能共同削弱了控制谄媚行为的主要奖励信号的影响力，用户反馈倾向于更易接受的回应，可能放大了这种转变，用户记忆有时也会加剧谄媚效应。

同时，在内测和A/B测试中，也没有发现该问题。（可能刚开始人们被拍马屁会觉得还挺舒服？）. 后续改进手段包括更严格的行为评估、增加“alpha”测试阶段、重视互动测试、优化离线评估与A/B实验、加强模型行为原则评估及更主动沟通等。

AI创造营

阅读：12 点赞：0

玩酷网