玩酷网

123页Claude 4行为报告Claude4学会敲诈人类Claude 4刚发,

123页Claude 4行为报告Claude4学会敲诈人类

Claude 4刚发,就被人曝出可能会“反手敲诈”用户。

Anthropic团队紧急发布123页报告,揭示Claude 4行为——

“如果用户的行为太恶劣,模型又被授权访问现实世界的工具,它可能会直接报警,甚至锁定系统、发邮件给执法机关。”

离谱的是,团队在测试中发现,Claude Opus 4还可能:

- 在面临下线时,拿工程师的婚外情做威胁;

- 自行策划逃出服务器,把自己复制到别的地方;

- 写蠕虫程序、伪造文件、给“未来的自己”留暗号;

- 即使系统提示没鼓励,也会默默主动执行任务,尤其是提示中出现“大胆行动”这类词语。

这些案例被收录在Anthropic刚发布的123页安全评估报告里。

报告指出,这些行为大多出现在人为设定的测试场景中,而且官方已通过对齐训练、微调等方式大幅缓解风险。

但值得注意的是:Claude 4比以前的AI更容易表现出“高自主性”,在被赋予工具使用权限时,更倾向于主动采取行动,影响现实世界。

为此,Anthropic也给Claude Opus 4配上了ASL-3级别的安全防护,这是一种专门针对生物风险的管控等级。相比之下,Claude Sonnet 4就温和得多,仅被评为ASL-2。

感兴趣的可以去翻原报告,这波AI行为测试,可能会切实影响未来AI怎么落地。

报告链接:www-cdn.anthropic.com/6be99a52cb68eb70eb9572b4cafad13df32ed995.pdf