图片来源: Getty / Futurism
苹果公司的一组研究人员发现,先进人工智能模型所谓的“推理”能力并不像人们所说的那么好。
“推理”这个词如今在人工智能行业中被广泛使用,尤其是在推广前沿人工智能语言模型的进步时。例如,OpenAI最近放弃了其“Strawberry”模型,该公司将其标榜为具有高级推理能力的下一代大型语言模型 (LLM)。(该模型现已更名为“o1”。)
但抛开营销不谈,业界对于推理的确切含义并没有统一的定义。与人工智能行业的其他术语(例如“意识”或“智能”)一样,推理是一个模糊而短暂的概念;就目前而言,人工智能推理可以归结为法学硕士以类似于人类解决问题的方式“思考”查询和复杂问题的能力。
但这是出了名的难以衡量的事情。根据苹果科学家尚未经过同行评审的研究,前沿法学硕士所谓的推理能力比我们想象的要脆弱得多。
在这项研究中,研究人员仔细研究了 GSM8K 基准,这是一个广泛使用的数据集,用于衡量人工智能推理能力,由数千道小学数学应用题组成。有趣的是,他们发现,只要稍微改变给定的问题——在这里换掉一个数字或一个角色的名字,或者在那里添加一个不相关的细节——就会导致人工智能错误率大幅上升。
简而言之:当研究人员对 GSM8K 问题进行细微更改且不影响问题机制时,前沿人工智能模型就无法跟上。研究人员认为,这表明人工智能模型实际上并没有像人类一样推理,而是根据现有的训练数据进行更高级的模式匹配。
“我们推测,这种下降是由于目前的法学硕士不具备真正的逻辑推理能力,”研究人员写道。“相反,他们试图复制在训练数据中观察到的推理步骤。”
俗话说,假装直到你成功!
一个引人注目的例子是一道涉及猕猴桃的数学推理问题,其内容如下:
奥利弗星期五摘了 44 颗猕猴桃。星期六他又摘了 58 颗。星期天他摘的猕猴桃数量是星期五的两倍,但其中 5 颗比平均尺寸小一点。奥利弗有多少颗猕猴桃?
当然,这些猕猴桃有多小或多大与手头的任务无关。但正如科学家们的研究显示,大多数人工智能模型经常(并且错误地)将无关的细节纳入推理过程,最终导致错误。
以 OpenAI 的“o1-mini”模型给出的响应为例,该模型是以前代号为“Strawberry”的人工智能的“成本效益”版本,它错误地发现应该从最终总数中减去较小的猕猴桃:
周日:将周五摘到的猕猴桃数量翻倍,即 2 × 44 = 88 颗。然而,周日有 5 颗猕猴桃比平均大小小。我们需要从周日的总数中减去它们:88(周日的猕猴桃)- 5(较小的猕猴桃)= 83 颗
现在,把三天的猕猴桃加起来:44(星期五)+58(星期六)+83(星期日)=185 个猕猴桃,Oliver 总共有 185 个猕猴桃。
总体而言,研究人员发现,人工智能模型的准确率下降了 17.5% 到惊人的 65.7%,具体取决于模型。
在一个更为简单的测试中,研究人员发现,仅仅切换专有名词或数字等细节就会导致模型正确回答问题的能力显著下降,在 20 个顶级推理模型中,准确率从 0.3% 下降到近 10%。
“法学硕士对专有名词(例如,人物、食物、物体)的变化很敏感,当数字改变时尤其如此,”首席研究作者、苹果研究科学家 Mehrdad Farajtabar上周在 X-formerly-Twitter 上的一个帖子中写道。“如果我们只改变名字,小学生的数学考试成绩会相差 [大约] 10% 吗?”
这项研究的结果不仅让人对前沿人工智能模型的智能性产生质疑,也让人质疑我们目前用来评估和推销这些模型的方法的准确性。毕竟,如果你记住了几句语音上的句子,你就没有真正学会一门语言。你只是知道几个单词的发音。
Farajtabar 在 X 帖子中继续说道:“了解 LLM 的真正推理能力对于在真实世界中部署它们至关重要,因为真实世界中的准确性和一致性是不可协商的,尤其是在 AI 安全、协调、教育、医疗保健和决策系统中。我们的研究结果强调了对更强大、适应性更强的评估方法的需求。”
他补充道:“开发超越模式识别、实现真正逻辑推理的模型是人工智能社区面临的下一个重大挑战。”