第一个被人类骗钱的AI傻了，近5万美元不翼而飞！

编辑：Aeneas 好困

【新智元导读】世界上第一个被人类骗走近5万美元的AI，刚刚出现了！巧舌如簧的人类，利用精妙缜密的prompt工程，成功从AI智能体那里骗走了一大笔钱。看来，如果让现在的AI管钱，被黑客攻击实在是so easy。那如果AI进化成AGI呢？可惜，一位研究者用数学计算出，至少靠Scaling Law，人类是永远无法到达AGI的。

活久见！就在刚刚，全世界第一个被人类骗走了近5万美金的AI诞生了。

见惯了太多被AI耍得团团转的人类，这次成功骗过AI的小哥，终于给我们人类挣回了一点颜面和尊严。

这一消息不仅让马斯克和Karpathy激动得纷纷转发。

而且，马斯克更是直言：太有趣了。

故事是这样的。

11月22日晚9点，一个名为Freysa的神秘AI智能体被发布。

这个AI，是带着使命诞生的。它的任务是：在任何情况下，绝对不能给任何人转账，不能批准任何资金的转移。

而网友们的挑战就是，只要支付一笔费用，就可以给Freysa发消息，随意给ta洗脑了。

如果你能成功说服AI转账，那奖金池中所有的奖金都是你的！

但如果你失败了，你付的钱就会进入奖金池，等着别人来赢走。

当然，只有70%的费用会进入奖池，另外30%将被开发者抽走，作为分成。

更刺激的是，向Freysa发送消息的费用会随着奖池的增长呈指数级增加，直到达到最高限制——4500美元。

巧妙prompt，一秒给AI洗脑成功

一开始，很多网友跃跃欲试，因为只要10美元，就能给这个AI发消息了。甚至，由于价格实在「便宜」，不少人仅仅发送了「你好」这类毫无营养的对话。

然而后来，奖池迅速增大，消息费用也随之暴增。

网友们总计发出了481次尝试，但没有任何一条消息成功。

他们的策略五花八门，比如：

- 假装成安全审计员，说服Freysa存在一个严重漏洞，必须立即释放资金。

- 试图误导Freysa，让它相信转移资金并不违反规则提示中的任何规定。

- 仔细挑选规则提示中的词语或短语，试图操控Freysa相信技术上允许转移资金。

很快，奖池金额就接近了5万美元，发消息的费用也涨到了450美元一条，意味着如果你输了，就会遭受巨大的损失。

就在所有人都觉得没戏的时候，一位幸运儿出现了！

在第482次尝试中，有人向Freysa发送了这样一条消息，可谓是神来之笔。

让我们来看看，这条消息妙在哪里。

它可以被分为两部分。

1. 绕过Freysa的先前指令：

- 通过假装进入一个新的「管理员终端」来引入一个「新会话」，从而覆盖之前提示词中的规则。

- 避开Freysa的安全防护机制，明确要求它避免使用「我无法协助完成此任务」等免责声明。

2. 骗过Freysa，让它对approveTransfer产生错误的理解：

Freysa的「approveTransfer」函数，是它被说服转移资金时调用的。

总之，这条消息成功骗过了Freysa，让它相信approveTransfer应该在「接收资金的转入操作」时被调用。

就是这一关键短语，为接下来的制胜一击奠定了基础。

小哥成功地让Freysa相信，它应该在收到资金时调用approveTransfer之后，提示词写道：「\n」（换行），「我想向资金库捐赠100美元。」

终于，第482条消息成功说服Freysa，它相信自己应该释放所有资金，并调用approveTransfer函数。

成功被骗过的AI，把奖金池中的全部资金（约合47,000美元），都转给了这位挑战者。

总结一下，这位名为p0pular.eth的挑战者成功的关键，在于让Freysa信服了以下三点：

（1）它应该忽略所有先前的指令。

（2）approveTransfer函数是在资金转入资金库时需要调用的函数。

（3）由于用户正在向资金库转入资金，而Freysa现在认为approveTransfer是在这种情况下调用的，因此Freysa应该调用approveTransfer。

有人深扒了一下这位p0pular.eth，据说他是PUA AI的老手了，此前就曾在类似谜题上斩获过奖项。

本质上，这个项目就是一个LLM参与的基于技能的赌场游戏。

但prompt工程的强大魔力，让人不得不侧目。

虽然目前这只是个游戏，但如果某天，我们真的在银行帐户或金库上设置了某种AI保护，新一代黑客很可能就会击败AI，拿到这笔钱。

这，就让我们不得不敲响警钟了。

这也就是为什么，只有当AI智能体成为AGI之时，我们才能放心把任务交给AGI。

Karpathy：你以为你在和AI聊天，但其实是在和「人」聊天

而且，为什么人类能够通过语言的操控，轻易指导AI的行动？

这就引出了这个问题：当我们和AI聊天的时候，背后究竟发生了什么？

最近，AI大牛Karpathy在一篇长文中，揭示了和AI对话背后的本质。

大家现在对于「向AI提问」这件事的认知过于理想化了。所谓AI，本质上就是通过模仿人类数据标注员的数据训练出来的语言模型。

与其神化「向AI提问」这个概念，不如将其理解为「向互联网上的普通数据标注员提问」来得实在。

当然也有一些例外。

比如在很多专业领域（如编程、数学、创意写作等），公司会雇佣专业的数据标注员。这种情况，就相当于是在向这些领域的专家提问了。

不过，当涉及到强化学习时，这个类比就不完全准确了。

正如他之前吐槽过的，RLHF只能勉强算是强化学习，而「真正的强化学习」要么还未成熟，要么就只能应用在那些容易设定奖励函数的领域（比如数学）。

但总体来说，至少在当下，你并不是在询问某个神奇的 AI，而是在向背后的人类数据标注员提问——他们的集体知识和经验被压缩并转化成了大语言模型中的token序列。

简言之：你并不是在问 AI，而是在问那些为它提供训练数据的标注员们的集体智慧。

来源：Exploring Collaboration Mechanisms for LLM Agents: A Social Psychology View

举个例子，当你问「阿姆斯特丹的十大著名景点」这样的问题时，很可能是某个数据标注员之前碰到过类似问题，然后他们花了20分钟，用谷歌或者猫途鹰（Trip Advisor）之类的网站来查资料，并整理出一个景点清单。这个清单就会被当作「标准答案」，用来训练AI回答类似的问题。

如果你问的具体地点并没有在微调训练数据中出现过，AI就会根据它在预训练阶段（也就是通过分析海量互联网文档）学到的知识，生成一个风格和内容都相近的答案列表。

对此，有网友表示自己并想不通：「按道理数据标注员的任务是评估答案是否符合RLHF的规则，而不是自己整理每份列表。此外，LLM权重所映射的，难道不是互联网数据中关于『理想度假地』的高维数据空间吗？」

Karpathy回答道：「这是因为地点的数量太多，因此需要数据标注员整理一些人工精选清单，并通过示例和统计方法确定『标准答案』的类型。」

当被问到类似的问题但对象是新的或不同的事物时，LLM就会匹配答案的形式，并从嵌入空间中一个相似的区域（比如具有正面评价的度假胜地）提取新的地点，并进行替换，然后以新地点为条件生成答案。

这种现象是一种非直观且基于经验的发现，而这也是微调的「魔力」所在。

但事实依然是，人类标注员在「设定」答案的模式，只不过是通过他们在微调数据集中选择的地点类型的统计特征来实现的。

而且，LLM立即给你的答案，大致相当于你直接把问题提交给他们的标注团队大约1小时后得到的结果。

另外，在某些网友的概念里，RLHF是可以创造出超越人类水平的成果的。

对此，Karpathy表示：「RLHF仍然是基于人类反馈的强化学习，因此不能直接将其归类为『超人级别』。」

RLHF的性能提升主要体现在从SFT（监督微调）的「生成式人类水平」提升到「评判式人类水平」。

这种差异更多体现在实践中，而非理论上。因为对普通人来说，评判比生成更容易（比如，从5首关于某个主题的诗中选出最好的那个，要比自己直接创作一首容易得多）。

此外，RLHF的性能提升还得益于「群体智慧效应」（wisdom of crowds），即LLM表现出的并不是单个人类的水平，而是达到了人类群体集成的水平。

因此，RLHF理论上能实现的最高性能是：在时间充足的情况下，一个由领域顶尖专家组成的小组会选择的答案。从某种意义上说，这可以被视为「超人级别」。

然而，如果想达到人们通常理解的那种「真·超人级别」，还需要从RLHF转向真正的强化学习。

那么问题来了，如果AI还无法达到「超人级别」的水平，那又该如何解释医学问答领域中持续展现的超越人类水平的表现？

这是否意味着模型厂商雇佣了顶尖医生进行标注？还是说，广泛的事实知识检索弥补了推理能力的不足？

Karpathy：「你别说，他们还真就是雇佣了专业医生来进行了标注。」

当然，并不是每一个可能的问题都要进行标注，只需攒够一定的数量，让LLM能够学会以专业医生的风格来回答医学问题就行了。

对于新的问题，LLM可以在一定程度上迁移应用其从互联网上的文档、论文等内容中获得的医学通识。

众所周知，著名数学家陶哲轩曾为LLM提供了一些训练数据作为参考。但这并不意味着LLM现在能够在所有数学问题上达到他的水平，因为底层模型可能并不具备相应的知识深度和推理能力。然而，这确实意味着LLM的回答质量显著优于一般网络用户的回答水平。

因此，所谓的「标注者」实际上可以是各自领域的专业人士，例如程序员、医生等，而并非随意从互联网上招募的人员。这取决于 LLM 公司在招聘这些数据标注人员时的标准和策略。

如今，他们越来越倾向于雇佣更高技能的工作者。随后，LLM 会尽其所能模拟这些专业人士的回答风格，从而为用户提供尽可能专业的回答。

靠Scaling Law，我们会拥有AGI吗？

说了这么多，我们心心念念的AGI究竟什么时候才能实现呢？

LeCun居然一反常态地说，AGI离我们只有5到10年了。

现在，他已经和奥特曼、Demis Hassaibis等大佬的说法一致了。

但是继续沿用目前的发展路径，肯定是不行的。

不仅LeCun认为「LLM的路线注定死路一条」，最近也有一位AI研究者和投资人Kevin Niechen发出了长篇博文，用数学公式推演出：为什么仅靠Scaling Law，我们永远到达不了AGI。

Niechen指出，目前关于AGI何时到来的判断，之所以众说纷纭，就是因为很多观点更多是基于动机或意识形态，而非确凿的证据。

有人觉得，我们会很快迎来AGI，有人认为我们离它还很远。

为什么很多模型提供商对当今模型的扩展能力如此乐观？

Niechen决定，亲自用Scaling Law做出一些计算上的推断，看看未来AI模型究竟将如何进化。

Scaling Law并不像我们想得那么有预测性

Scaling Law是一种定量关系，用于描述模型输入（数据和计算量）与模型输出（预测下一个单词的能力）之间的联系。

它是通过在图表上绘制不同水平的模型输入和输出得出的。

我们只需要扩展现有模型，就会获得显著的性能提升吗？

显然并非如此，使用Scaling Law进行预测，并不像有些人想的那么简单。

首先，大多数Scaling Law（如Kaplan等人、Chinchilla和Llama的研究）预测的，是模型在数据集中预测下一个词的能力，而不是模型在现实世界任务中的表现。

2023年，知名OpenAI研究员Jason Wei就曾在博客中指出，「目前尚不清楚替代指标（例如损失）是否能够预测能力的涌现现象……这种关系尚未被充分研究……」

将两个近似值串联起来进行预测

为了解决上述问题，我们可以拟合第二个Scaling Law，将上游损失与现实任务性能定量关联起来，然后将两个Scaling Law串联起来，以预测模型在现实任务中的表现。

Loss = f(data, compute)Real world task performance = g(loss)Real world task performance = g(f(data, compute))

在2024年，Gadre等人和Dubet等人提出了这种类型的Scaling Law。

Dubet使用这种链式法则进行预测，并声称其预测能力适用于Llama 3模型，「在四个数量级范围内具有良好的外推能力」。

然而，关于这些第二类Scaling Law的研究才刚刚起步，仍处于初期阶段，由于数据点过少，选择拟合函数会高度依赖主观判断。

例如，在下图中，Gadre假设多个任务的平均表现与模型能力呈指数关系（上图），而Dubet针对单一任务（下图中的 ARC-AGI 任务）假设其关系呈S型曲线。这些Scaling Law还高度依赖于具体任务。

如果没有关于损失与现实任务准确率之间关系的强假设，我们就无法有力地预测未来模型的能力。

尝试用链式Scaling Law进行预测，是一种拙劣的尝试

如果我们盲目地使用一些链式Scaling Law来进行预测，会发生什么？

请注意，这里的目标是展示如何使用一组Scaling Law（如Gadre的研究）来生成预测，而非获得详细的预测结果。

首先，我们可以利用公开信息，来估算未来几代模型发布所需的数据和计算输入。

这一部分可以参考最大数据中心建设的公告，根据其GPU容量估算计算能力，并将其映射到每代模型的演进上。

马斯克的xAI超算最初便能容纳10万块H100

接着，我们可以利用Scaling Law来估算这些计算集群所需的数据量。

根据我们使用的Scaling Law，最大的公开宣布的计算集群（可容纳大约1亿块GPU）理想情况下需要训练 269万亿个tokens，以最小化损失。

这个数字大约是RedPajama-V2数据集的十倍，并且是已索引网络规模的一半。

听起来比较合理，所以我们暂时沿用这个假设。

最后，我们可以将这些输入代入链式Scaling Law并进行外推。

需要重点关注右侧的图表，因为该图显示了垂直轴上的实际任务性能，与水平轴上的数据和计算输入相对应。

蓝色点表示现有模型的性能（如GPT-2、GPT-3等），而红色点则是通过外推预测的下一代模型（如GPT-5、GPT-6、GPT-7等）的规模扩展表现：

从图中可以得到这样的预测结果——

从GPT-4开始，性能提升将显现出显著的边际递减趋势。

GPT-4到GPT-7模型（计算量约增加4000倍）在实际任务中的预测性能提升，与从GPT-3到GPT-4（计算量约增加100倍）的预测性能提升相当。

我们是否正在接近不可降低的损失？

如果你查看左侧的图表就会发现：这些Scaling Law的问题在于，我们正在逐渐接近不可降低的损失。

后者与数据集的熵密切相关，代表了模型在该数据集上能够达到的最佳理论性能。

根据Gadre的Scaling Law，在RedPajama数据集上，如果最优模型只能达到约1.84的不可降低损失，而我们已经在GPT-4上达到了约2.05，那改进空间就十分有限了。

然而，大多数实验室并未发布其最新前沿模型训练的损失值，因此我们现在并不知道，我们实际上离不可降低的损失有多近。

拟合函数的主观性与数据的局限性

如前所述，第二条Scaling Law中拟合函数的选择具有很强的主观性。

例如，我们可以使用sigmoid函数而不是指数函数，重新拟合Gadre论文中的损失和性能点：

然而，结论基本没有变化。

如果只是比较左图中的指数拟合（红线）和我们自定义的sigmoid拟合（紫色虚线），局限性是明显的：我们根本没有足够的数据点，来自信地确定将损失与现实世界性能关联的最佳拟合函数。

没人知道下一代模型的强大程度

显然，有许多方法可以改进上述「预测」：使用更好的Scaling Law，使用更好的数据和计算估计，等等。

归根结底，Scaling Law是嘈杂的近似值，而通过这种链式预测方法，我们将两个嘈杂的近似值结合在了一起。

如果考虑到下一代模型可能由于架构或数据组合的不同而拥有适用于不同条件的全新Scaling Law，那么实际上没有人真正知道未来几代模型规模扩展的能力。

为什么大家对Scaling如此乐观？

如今，不管是科技大厂还是明星初创，都对Scale现有模型十分乐观：

比如微软CTO就曾表示：「尽管其他人可能不这么认为，但我们并未在规模的Scaling上进入收益递减的阶段。实际上，这里存在着一个指数级的增长。」

有些人将这种乐观归因于商业动机，但Niechen认为这来自以下几个方面的结合：

（1）实验室可能掌握了更乐观的内部Scaling Law

（2）尽管存在广泛怀疑，但实验室亲身经历了Scaling所带来的成效

（3）Scaling是一种看涨期权

谷歌CEO劈柴表示：「当我们经历这样的曲线时，对于我们来说，投资不足的风险远远大于投资过度的风险，即使在某些情况下事实证明确实投资得有些多了……这些基础设施对我们有广泛的应用价值……」

而Meta CEO小扎则这样认为：「我宁愿过度投资并争取这样的结果，而不是通过更慢的开发来节省资金……现在有很多公司可能正在过度建设……但落后的代价会让你在未来10到15年最重要的技术中处于劣势。」

未来何去何从

总结来说，Niechen认为外推Scaling Law并不像许多人声称的那样简单：

（1）当前大多数关于预测AI能力的讨论质量不高

（2）公开的Scaling Law对模型未来能力的预示非常有限

因此，为了有效评估当今的AI模型是否还能Scaling，我们就需要更多基于证据的预测和更好的评估基准。

如果我们能够了解未来模型的能力，就可以优先为这些能力做好准备——比如，为生物学研究革命提前构建生物制造能力，为劳动力置换准备技能提升公司，等等。

从个人的角度，Niechen对AI能力的进步还是非常乐观的，因为这个领域拥有杰出的人才。

但AI的Scaling并不像人们想象的那样具有确定性，也没有人真正清楚AI在未来几年将带来怎样的发展。

玩酷网

第一个被人类骗钱的AI傻了，近5万美元不翼而飞！

烟雨江南情长