集体降智！小学生都会算的数学题竟然难倒了AI大模型？

7月13日，最新一期的《歌手》公布排名。其中孙楠得票13.8%排名第三，外国歌手香缇莫得票13.11%排名第四。引发了网友对排名的质疑。

图片来源：湖南卫视歌手官方微博；

网络上，不少网友认为13.11%大于13.8%。因此，香缇莫的排名应该高于孙楠。

图片来源：网络截图；

随后，关于13.8和13.11大小比较的话题，迅速冲上微博热搜！看到这海星君已经感觉很离谱了，然而更离谱的来了。这道出现在小学四年级课本里的题不仅难倒了一批网友，就连众多海外AI大模型也纷纷落马。

据第一财经、财联社等媒体测试，ChatGPT、Kimi、智谱清言、商汤商量、阶跃星辰等大部分大模型应用纷纷翻车，而文心一言、字节豆包等少部分大模型则守住了尊严。

在进行测试与Kimi对话的过程中，Kimi表示13.11大于13.8，并给到了解释：“13.11与13.8的整数部分相同，由于小数部分0.11是两位小数，而0.8只有一位小数，13.11比13.8更接近14，因此13.11是更大的数。”

图片来源：Kimi对话；

Luca则错误地回复称，“因为13.11比13.8多了0.31，所以13.11的数值更大。”

图片来源：与Luca对话；

有意思的是，不仅国产大模型搞不清楚这道简单的数学题，国外主流的大模型也曾在类似问题上集体翻车。

此前有AI工程师晒出问答截图显示，9.11和9.9谁更大？ChatGPT-4o、谷歌Gemini、Claude 3.5 Sonnet都坚定地认为9.11更大。

面对“13.11和13.8，哪个数值更大？”这一问题，ChatGPT3.5最初也给出了错误的答案。

当被问及“13.11和13.8，哪个数值更大？”时，ChatGPT3.5首先表示13.11比13.8大。不过进一步追问时，ChatGPT3.5比较小数后修正了错误的答案，最终认定13.8比13.11大。

图片来源：ChatGpt对话；

这时候有网友恍然大悟，似乎发现了“华点”——如果说数字被辨识为「软件版本号」，那么V13.11确实要比V13.8的版本更新。

还有网友指出其他的看法，在实际生活中有很多案例是「13.11」＞「13.8」。比如，书籍目录的13.11章节的确是大于13.8章节。

一道简单数学比较题，大模型为何频频出错？

技术专家表示，在人们看来，这是一道小学生的数学算术题，但大模型不一定这样认为，它更经常见到这些数字是包含在软件版本号、股票、基金或者汇率等信息里，它们出现时跟数字大小本身没有关联。而大模型看到这样一组数字，意识不到应该做双精度浮点运算。

所以最终还可能是大模型的训练数据集里边包含了书籍章节信息，反而是人类手把手教AI学基础算数的数据量很少。

所以在提示词里边，你只需要向AI解释清楚——「13.11」和「13.8」都是双精度浮点数，这道神奇的“难题”就可以轻松做对了。

对于AI这种「愣而不傻」的情况，你怎么看呢？

玩酷网