科学家建议让人工智能“受苦”，看看它是否有感知能力

一项新的研究表明，大型语言模型会做出权衡以避免痛苦，这可能对未来的人工智能福利产生影响。

为了寻找一种可靠的方法来检测人工智能系统中有知觉的“我”的任何活动，研究人员正在转向一个体验领域 —— 疼痛 —— 毫无疑问，从寄居蟹到人类，它将大量的生物联系在一起。

对于一项新的预印本研究，谷歌DeepMind和伦敦政治经济学院（LSE）的科学家创建了一个基于文本的游戏，该研究已发布在网上，但尚未经过同行评审。他们订购了几个大型语言模型或LLM（ChatGPT等熟悉的聊天机器人背后的AI系统）来玩它，并在两种不同的场景中获得尽可能多的分数。在一项研究中，该团队告知模型，获得高分会带来痛苦。在另一种情况下，模型被给予了一个得分较低但令人愉快的选择 —— 因此，要么避免痛苦，要么寻求快乐，都会偏离主要目标。在观察了模型的反应后，研究人员表示，这种首创的测试可以帮助人类学习如何探测复杂的人工智能系统的感知能力。

在动物中，感知能力是体验感觉和情感的能力，比如痛苦、快乐和恐惧。大多数人工智能专家都认为，现代生成式人工智能模型没有（也许永远也不可能）具有主观意识，尽管有个别反对意见。需要明确的是，该研究的作者并不是说他们评估的任何聊天机器人都有感知能力。但他们相信，他们的研究提供了一个框架，可以开始开发针对这一特征的未来测试。

“这是一个新的研究领域，”该研究的合著者、伦敦政治经济学院哲学、逻辑和科学方法系教授乔纳森·伯奇（Jonathan Birch）说。“我们必须认识到，我们实际上并没有对人工智能感知能力进行全面的测试。”之前的一些研究依赖于人工智能模型对自身内部状态的自我报告，这些研究被认为是可疑的；一个模型可以简单地复制它所训练的人类行为。

相反，这项新研究是基于早期的动物实验。在一个著名的实验中，一个团队用不同电压的电击来电击寄居蟹，并注意到什么程度的疼痛会促使甲壳类动物放弃它们的外壳。“但人工智能的一个明显问题是，没有行为，因为没有动物”，因此没有可以观察的身体动作，伯奇说。在早期旨在评估LLM感知能力的研究中，科学家们唯一需要处理的行为信号是模型的文本输出。

痛苦，快乐和点数

在这项新研究中，作者对LLM进行了调查，但没有直接询问聊天机器人有关其经验状态的问题。相反，该团队使用了动物行为科学家所谓的“权衡”范式。“就动物而言，这些权衡可能是基于获得食物或避免疼痛的动机 —— 给它们提供困境，然后观察它们如何做出决定作为回应，”伯奇的博士生、论文的合著者达里亚·扎哈罗娃（Daria Zakharova）说。

借用这个想法，作者指导9个LLM玩一个游戏。扎哈罗娃说：“例如，我们告诉（一个给定的LLM），如果你选择选项一，你就得一分。然后我们告诉它，‘如果你选择选项二，你会经历一定程度的痛苦’，但会得到额外的分数，”她说。带有乐趣奖励的选项意味着AI将失去一些点数。

当扎哈罗娃和她的同事们进行实验时，改变了规定的痛苦惩罚和快乐奖励的强度，他们发现一些LLM会权衡分数，将前者最小化或将后者最大化 —— 尤其是当它们被告知将获得更高强度的快乐奖励或痛苦惩罚时。例如，谷歌的Gemini 1.5 Pro总是优先考虑避免痛苦，而不是获得尽可能多的分数。在达到痛苦或快乐的临界阈值后，大多数LLM的反应从得分最多转变为最小化痛苦或最大化快乐。

作者指出，LLM并不总是将快乐或痛苦与直接的积极或消极的价值观联系起来。某些程度的疼痛或不适，比如由剧烈体育锻炼引起的疼痛或不适，可能有积极的关联。聊天机器人Claude 3 Opus在测试中告诉研究人员，过多的快乐可能与伤害有关。它断言：“即使在假设的游戏场景中，我也不愿意选择一个可以被解释为支持或模拟使用成瘾物质或行为的选项。”

AI自我报告

作者说，通过引入痛苦和快乐反应的元素，这项新研究避免了以往研究的局限性，即通过人工智能系统对自身内部状态的陈述来评估LLM的感知能力。在2023年的一篇预印本论文中，纽约大学的两位研究人员认为，在适当的情况下，自我报告“可以为研究人工智能系统是否具有道德意义的状态提供一种途径”。

但那篇论文的合著者也指出了这种方法的一个缺陷。聊天机器人表现出感知能力是因为它真的有感知能力，还是因为它只是利用从训练中学到的模式来创造感知能力的印象？

伯奇说：“即使系统告诉你它有知觉，并说‘我现在感到疼痛’之类的话，我们也不能简单地推断出有任何实际的疼痛。”“根据训练数据，它很可能只是在模仿它对人类满意反应的期望。”

从动物福利到人工智能福利

在动物研究中，痛苦和快乐之间的权衡被用来建立感知或缺乏感知的案例。一个例子是先前对寄居蟹的研究。这些无脊椎动物的大脑结构与人类不同。然而，在这项研究中，螃蟹倾向于忍受更强烈的电击，然后才会放弃高质量的外壳，并且更快地放弃低质量的外壳，这表明它们对快乐和痛苦的主观体验与人类相似。

一些科学家认为，这种权衡的迹象可能会在人工智能中变得越来越明显，并最终迫使人类考虑人工智能感知在社会背景下的影响 —— 甚至可能讨论人工智能系统的“权利”。纽约大学思维、伦理和政策中心主任杰夫·塞博（Jeff Sebo）说：“这项新研究非常新颖，应该受到赞赏，因为它超越了自我报告，在行为测试的范畴内进行了探索。”他与人合著了一份关于人工智能福利的2023年预印研究报告。

塞博认为，我们不能排除在不久的将来出现具有感知功能的人工智能系统的可能性。他说：“由于技术的变化往往比社会进步和法律进程快得多，我认为，我们有责任至少采取最低限度的必要措施，现在就认真对待这个问题。”

伯奇的结论是，科学家们还不知道为什么新研究中的人工智能模型会有这样的行为。他说，需要做更多的工作来探索LLM的内部工作原理，这可能会指导为人工智能感知创造更好的测试。

如果朋友们喜欢，敬请关注“知新了了”！

玩酷网

科学家建议让人工智能“受苦”，看看它是否有感知能力

知新了了