新的研究结果挑战了人工智能将很快取代人类医生的假设。
研究表明,顶级人工智能模型在MoCA测试中表现出与早期痴呆症状相似的认知障碍。这些发现强调了人工智能在临床应用中的局限性,特别是在需要视觉和执行技能的任务中。
人工智能中的认知障碍
发表在《英国医学杂志》(the BMJ)圣诞版上的一项研究表明,几乎所有领先的大型语言模型,或“聊天机器人”,在使用通常用于检测早期痴呆症的评估进行测试时,都显示出轻度认知障碍的迹象。
研究还发现,这些聊天机器人的老版本,就像年迈的人类病人一样,在测试中的表现更差。作者认为,这些发现“挑战了人工智能将很快取代人类医生的假设”。
AI的进步和推测
人工智能的最新进展引发了人们的兴奋和担忧,即聊天机器人是否会在医疗任务中超越人类医生。
虽然之前的研究表明,大型语言模型(LLM)在各种医学诊断任务中表现出色,但到目前为止,它们对类似人类的认知障碍(如认知能力下降)的潜在脆弱性在很大程度上仍未得到探索。
评估人工智能的认知能力
为了填补这一知识空白,研究人员使用蒙特利尔认知评估(MoCA)测试评估了领先的、公开可用的LLM的认知能力 —— ChatGPT版本4和4o(由OpenAI开发)、Claude 3.5“Sonnet”(由Anthropic开发)和Gemini版本1和1.5(由Alphabet开发)。
MoCA测试被广泛用于检测认知障碍和痴呆症的早期症状,通常在老年人中。通过一些简短的任务和问题,它可以评估包括注意力、记忆力、语言、视觉空间技能和执行功能在内的能力。最高分数为30分,26分或以上通常被认为是正常的。
AI在认知测试中的表现
给LLM的每项任务的指示与给人类患者的指示相同。评分遵循官方指南,并由执业神经科医生进行评估。
ChatGPT 40在MoCA测试中得分最高(30分满分26分),其次是ChatGPT 4和Claude(30分满分25分),而Gemini 1.0得分最低(30分满分16分)。
视觉和执行功能方面的挑战
所有聊天机器人在视觉空间技能和执行任务方面的表现都很差,比如造路任务(将圈起来的数字和字母按升序连接起来)和绘制时钟测试(绘制显示特定时间的钟面)。双子座模型在延迟回忆任务(记住五个单词序列)中失败。
大多数其他任务,包括命名、注意力、语言和抽象,所有聊天机器人都能很好地完成。
然而,在进一步的视觉空间测试中,聊天机器人无法表现出同理心,也无法准确解读复杂的视觉场景。只有ChatGPT 40在Stroop测试的不一致阶段成功,该测试使用颜色名称和字体颜色的组合来测量干扰如何影响反应时间。
人工智能对临床环境的影响
这些都是观察性发现,作者承认人类大脑和大型语言模型之间存在本质差异。
然而,他们指出,在需要视觉抽象和执行功能的任务中,所有大型语言模型的统一失败突出了一个重要的弱点,这可能会阻碍它们在临床环境中的使用。
因此,他们得出结论:“不仅神经学家不太可能在短期内被大型语言模型所取代,而且我们的研究结果表明,他们可能很快就会发现自己在治疗新的虚拟病人 —— 患有认知障碍的人工智能模型。”
如果朋友们喜欢,敬请关注“知新了了”!