玩酷网

率先测了一把阿里「世界最强」数学大模型后，我深吸一口气。。

科技有夕小瑶 2024-08-21 12:12:41

打开APP Store，各种搜题软件太多了！

拍搜赛道不止服务于K12学段的学生、老师、家长等广大的用户群体，大学生、考研、考公等任何学习场景都有需求。

除了作业帮、猿辅导等传统教培企业一直在拍搜赛道深耕，一些互联网巨头这些年也纷纷入局推出产品，比如阿里的夸克搜索也上线了拍照搜题功能，还有字节的闪电搜题和Gauth（面向海外市场的AI教育产品）。

大模型爆火以来，AI教育创企和产品也是多了很多，比如MathGPT、Solvely、Answer.ai等，数学作为大模型需要攻克的场景之一，出现了很多专攻数学的大模型。

比如，今天的主角：Qwen2-Math-72B。

上周，阿里就发布了一个世界最强数学模型，在math数据集上一骑绝尘，远超各种闭源模型，甚至超过了其他大型开源数学模型。

模型具体信息移步今日的推文《阿里推出世界最强的数学模型Qwen2-Math，击败GPT4o、Claude3.5》。

今天，阿里又放出了一个多模态demo，通过另一个模型Qwen2-VL的加持，为Qwen2-Math提供处理图片文本的能力。

也就是说，现在可以拍照搜题了！

这个多模态模型可以直接在hugging face上测试，我把链接贴在下面了：

https://huggingface.co/spaces/Qwen/Qwen2-Math-Demo

千问还给出了一些使用例，无论是步骤还是答案确实可以：

光看官方给出的效果确实客观，可是具体好不好用，还得自己上手试试才知道。

拍照搜题正确率怎么样？让我来试试

既然能拍照搜题，那当然是要拿图片来提问了。

Round 1：简单计算

让我们先来道普通的算术题，通过计算器都可以计算出来。

比如这个：

拿着这个这道题目去问……确实答对了！

诶，我们来问这个难倒无数AI的经典题目：

9.8和9.11哪个大？

我的天！千问居然答对了！

前后换个顺序问问，也答对了。

我们换一个题型。

Round 2：代数

来试试我们最经典的代数题吧。既然官方演示使用的也是代数题目，说明这方面的能力也不在话下。

就拿这个题目来试试吧，上点强度：

然后，我便开始苦苦等待，仿佛这道题难倒它了，足足等了2分钟……

但结果不负众望，它答对了，代数强者恐怖如斯。

不过，还不能急着下结论，我们的重头戏还没上呢！

3.5研究测试：hujiaoai.cn4研究测试：askmanyai.cnClaude-3研究测试：hiclaude3.com

Round 3：概率

概率题我们就上点难度，直接拿出2023年的新高考1卷概率题来提问：

我们先来看标准答案吧！

貌似概率题目考的实在是太理想化了，千问水灵灵的给出了错误答案：

第二问就差一点就做对了，思路是好的，但是错了就是错了。

好吧好吧，我们还是直接上重头戏：几何图形！

Round 4：几何

关于几何题，评论区的网友们给出了绝佳的事例：

坏了，我刚看到这个题目时，我也懵了，这题该咋做啊！

不过还是做出来了，答案是4π-8 。

不行，我得看看千问会不会。

哎呀，啰里啰嗦一堆，结果还是做错了。看来千问的几何能力还有待提升啊！

最后我们再来一个比较针对性的测试：

Round 5：多模态能力

还有一名网友给出了一个事例，同时出现多种计算符号会让多模态文本处理“宕机”，从而给出错误的答案。

拿去一问，果然千问做错了。

今天测试的一共6道题，Qwen2-Math 3对3错。

从测试的case感受讲，计算代数问题能力不错，但是比较高阶的概率和几何图形就cover不住了。

看来，数学模型的多模态发展还是任重道远啊！

我还特意去了解了一下国家9年义务教育对各个阶段要求掌握具备的数学能力是咋样的！

2022年版（数学课程标准）是这样定义的

你们觉得这版模型能力是什么水平？？

我还是非常期待，在多模态文本识别方面，阿里还能继续披荆斩棘，打造数学AI模型的国产之光。

愿国产AI无惧风雨，一直在路上。

参考资料 [1]https://x.com/Alibaba_Qwen/status/1825559009497317406

0 阅读：0

科技有夕小瑶

简介：感谢大家的关注

作者最新文章

科技TOP

科技最新文章