被喷了这么多年,图灵测试这老东西为啥还没凉?

差评XPIN 2025-04-20 09:06:42

先问大家一个问题,仅凭聊天,你能判断出对方是个怎样的人吗?

来看看这段聊天记录,你可能会得出结论,对方是个宇宙无敌大懒狗。

但要是我跟你说,对面压根就不是人,你敢信?

这事儿,就跟科学史上的典中典,图灵测试有关。

一直以来,大伙都把这测试当成衡量 AI 智力的标准。咋测呢?就是让人跟 AI 聊天,要是人类分不清对面是 AI 还是人,那这 AI 就算赢了。

不过这图灵老爷子都去世七十多年了,图灵测试似乎依旧是AI圈的一座“指路明灯”。

在 2024 年,GPT-4 就挑战了图灵测试,并以 54% 的胜率成功拿下。

要知道这图灵测试的及格线是30%,这成绩已经算是妥妥的优秀了。

当时加州大学圣地亚哥分校的研究让 500 名参与者和四个 “对话者”(包括真人、某古董机器人 ELIZA、GPT-3.5 和 GPT-4)进行 5 分钟交流,结果近六成的人被 GPT-4 的演技忽悠了,其他AI都没迈过30%的坎儿。

前段时间,又有人拿最新的 GPT4.5 去做了测试。结果表明,它不仅通过了图灵测试,更绝的是,它被当成人类的概率比真人还高!好家伙,这下真有人活得还不如人机了。

所以,这么多年了,这玩意凭啥还在屹立不倒呢?

要知道,在计算机还在用打孔纸带存储的年代,图灵就提出了这个测试。这是因为当时的人们还搞不清人类思维的本质,要研究机器怎么思考,就更无从下手了。

所以图灵就想,我们不纠结本质,直接看它的表现不就行了?就像一个东西,看起来像番茄,吃起来像番茄,那它就是番茄啊!如果机器有智慧,那它就应该表现得像人。

不过谁能想到,直到今天,科学家还没搞清人类大脑的运作方式。。所以这玩意退不了休,也有它的道理。

但江江其实一直有一个疑问,这图灵测试真有那么神吗?跟你对个话就说明AI有思考能力,是不是有点儿太草率了。

我上网搜了一下,不少网友也怀着一样的看法:都5202年了,图灵测试早就过时了。

其实吧,这玩意儿自从提出,在业内反对声就一直不少。

早在1980年,加州伯克利的一位教授就提出,图灵测试根本没用。他举的例子是,把一位英语母语的人关在房间中,然后向屋里传递中文写成的问题,而屋里有一本英汉双语的答案书。这样他只需要每次收到问题,去找答案,抄下来,再把答案递出去就行了,根本不用思考问题。

这确实是图灵测试的一个大bug——它只看答案,不需要看过程。

而且,它的bug还不止一个。1966 年,MIT 有个教授整了个聊天机器人 ELIZA,它能用简单又模糊的回复,让你觉得它好像懂你。下面这段对话,乍一看没啥问题,仔细一琢磨,ELIZA 就是个纯纯复读机!但还真能骗过一部分人类。。

2014年,一位程序员宣布,他的程序成功通过了图灵测试。但他的办法让人直呼神人,他让该程序伪装成一个13岁乌克兰男孩儿,而提问者是英语母语者,这就导致提问者觉得,对方是小屁孩而且语言不通,胡言乱语很正常。

很明显,这些机器人把重心放在了“糊弄人类”,而不是“思考答案”上,测试的人直呼被耍了。

这事儿也让好多人开始对图灵测试火力全开。

2014年著名科技杂志IEEE Spectrum的一篇文章就提出,图灵测试真不行,威诺格拉德测试才是未来!

这威诺格拉德测试呢,就是给机器出点常识性填空题,比如:

狮子吃斑马是因为“它们”是捕食者,这里的 “它们” 指的是 “斑马” 还是 “狮子” 呢?

这题人一眼就能答出来, AI 就得犯难了。

2020年,亚马逊的首席科学家 Rohid 也发文称,图灵测试早该淘汰了!

纽约大学教授加里·马库斯甚至直言:这玩意早过时了,我希望人们忘记它,但人们忘不掉它。

这么看,大伙对图灵测试积怨已久啊。

但其实,也不能怪大伙。就连图灵本人,也没有对图灵测试进行严格定义。这就导致,

图灵测试像个框,什么都能往里装。

就拿GPT4.5这篇文章来说,实验数据是1023场对话,平均长度8条消息,持续4.2分钟。这么短的对话,让很多人直接开喷,这也算聊天儿?

虽说图灵在 1950 年的文章里提到过,开始对话 5 分钟后,人类认出 AI 的几率不超过 70% 就算通过。但那也是基于当时的技术水平猜的一个标准,现在 AI 发展得这么猛,还这么低的标准,确实有点儿跟不上趟了。

再说了,现在的大模型说话贼像人,一般人根本分辨不出来。但它真的会思考吗?别看它整天整些 “深度思考” 的架势,本质上,它根本不理解自己输出的东西,更别说情感了。

就连不同的人,对不同的AI的分辨能力也不一样。就像打了一百遍的Boss,远不如初见杀的时候有杀伤力。资深AI用户去参加图灵测试,认出AI的概率肯定更高,那么问题来了,要给AI搞个难度分级,一路从人类小兵干到最终人类Boss,才算通关吗?

这样看,图灵测试这玩意bug还真挺多,确实没啥说服力了。

但老实说,人们现在纠结图灵测试过不过时,可能并不是图灵老爷子想看到的事儿。

就像老爷子在他的经典论文《Computing Machinery and Intelligence》里写道:“我们希望机器能在所有智力领域与人类竞争,但最好的起点在哪里?我也不知道。”说到底,他也只是在一个领域,提出了一种可行的解法罢了。被后来的人奉为圭臬,也是他根本没想到的事情。

而现在,ChatGPT能写出比大多数人还好的文章,Claude能指挥你的电脑开始干活,我们却还在嘲笑AI通不过图灵测试,是否有点一叶障目了?

图灵从来没有说过,通过了我的测试,AI才算成功。他真正想看见的,只是人类的无限进步罢了。

0 阅读:120

差评XPIN

简介:用知识和观点Debug the world!