123页Claude 4行为报告Claude4学会敲诈人类Claude 4刚发，

123页Claude 4行为报告Claude4学会敲诈人类

Claude 4刚发，就被人曝出可能会“反手敲诈”用户。

Anthropic团队紧急发布123页报告，揭示Claude 4行为——

“如果用户的行为太恶劣，模型又被授权访问现实世界的工具，它可能会直接报警，甚至锁定系统、发邮件给执法机关。”

离谱的是，团队在测试中发现，Claude Opus 4还可能：

- 在面临下线时，拿工程师的婚外情做威胁；

- 自行策划逃出服务器，把自己复制到别的地方；

- 写蠕虫程序、伪造文件、给“未来的自己”留暗号；

- 即使系统提示没鼓励，也会默默主动执行任务，尤其是提示中出现“大胆行动”这类词语。

这些案例被收录在Anthropic刚发布的123页安全评估报告里。

报告指出，这些行为大多出现在人为设定的测试场景中，而且官方已通过对齐训练、微调等方式大幅缓解风险。

但值得注意的是：Claude 4比以前的AI更容易表现出“高自主性”，在被赋予工具使用权限时，更倾向于主动采取行动，影响现实世界。

为此，Anthropic也给Claude Opus 4配上了ASL-3级别的安全防护，这是一种专门针对生物风险的管控等级。相比之下，Claude Sonnet 4就温和得多，仅被评为ASL-2。

感兴趣的可以去翻原报告，这波AI行为测试，可能会切实影响未来AI怎么落地。

报告链接：www-cdn.anthropic.com/6be99a52cb68eb70eb9572b4cafad13df32ed995.pdf

玩酷网