集体降智!小学生都会算的数学题竟然难倒了AI大模型?

海凝海 2024-07-18 03:14:45

7月13日,最新一期的《歌手》公布排名。其中孙楠得票13.8%排名第三,外国歌手香缇莫得票13.11%排名第四。引发了网友对排名的质疑。

图片来源:湖南卫视歌手官方微博;

网络上,不少网友认为13.11%大于13.8%。因此,香缇莫的排名应该高于孙楠。

图片来源:网络截图;

随后,关于13.8和13.11大小比较的话题,迅速冲上微博热搜!看到这海星君已经感觉很离谱了,然而更离谱的来了。这道出现在小学四年级课本里的题不仅难倒了一批网友,就连众多海外AI大模型也纷纷落马。

据第一财经、财联社等媒体测试,ChatGPT、Kimi、智谱清言、商汤商量、阶跃星辰等大部分大模型应用纷纷翻车,而文心一言、字节豆包等少部分大模型则守住了尊严。

在进行测试与Kimi对话的过程中,Kimi表示13.11大于13.8,并给到了解释:“13.11与13.8的整数部分相同,由于小数部分0.11是两位小数,而0.8只有一位小数,13.11比13.8更接近14,因此13.11是更大的数。”

图片来源:Kimi对话;

Luca则错误地回复称,“因为13.11比13.8多了0.31,所以13.11的数值更大。”

图片来源:与Luca对话;

有意思的是,不仅国产大模型搞不清楚这道简单的数学题,国外主流的大模型也曾在类似问题上集体翻车。

此前有AI工程师晒出问答截图显示,9.11和9.9谁更大?ChatGPT-4o、谷歌Gemini、Claude 3.5 Sonnet都坚定地认为9.11更大。

面对“13.11和13.8,哪个数值更大?”这一问题,ChatGPT3.5最初也给出了错误的答案。

当被问及“13.11和13.8,哪个数值更大?”时,ChatGPT3.5首先表示13.11比13.8大。不过进一步追问时,ChatGPT3.5比较小数后修正了错误的答案,最终认定13.8比13.11大。

图片来源:ChatGpt对话;

这时候有网友恍然大悟,似乎发现了“华点”——如果说数字被辨识为「软件版本号」,那么V13.11确实要比V13.8的版本更新。

还有网友指出其他的看法,在实际生活中有很多案例是「13.11」>「13.8」。比如,书籍目录的13.11章节的确是大于13.8章节。

一道简单数学比较题,大模型为何频频出错?

技术专家表示,在人们看来,这是一道小学生的数学算术题,但大模型不一定这样认为,它更经常见到这些数字是包含在软件版本号、股票、基金或者汇率等信息里,它们出现时跟数字大小本身没有关联。而大模型看到这样一组数字,意识不到应该做双精度浮点运算。

所以最终还可能是大模型的训练数据集里边包含了书籍章节信息,反而是人类手把手教AI学基础算数的数据量很少。

所以在提示词里边,你只需要向AI解释清楚——「13.11」和「13.8」都是双精度浮点数,这道神奇的“难题”就可以轻松做对了。

对于AI这种「愣而不傻」的情况,你怎么看呢?

0 阅读:0

海凝海

简介:感谢大家的关注