率先测了一把阿里「世界最强」数学大模型后,我深吸一口气。。

科技有夕小瑶 2024-08-21 12:12:41

打开APP Store,各种搜题软件太多了!

拍搜赛道不止服务于K12学段的学生、老师、家长等广大的用户群体,大学生、考研、考公等任何学习场景都有需求。

除了作业帮、猿辅导等传统教培企业一直在拍搜赛道深耕,一些互联网巨头这些年也纷纷入局推出产品,比如阿里的夸克搜索也上线了拍照搜题功能,还有字节的闪电搜题和Gauth(面向海外市场的AI教育产品)。

大模型爆火以来,AI教育创企和产品也是多了很多,比如MathGPT、Solvely、Answer.ai等,数学作为大模型需要攻克的场景之一,出现了很多专攻数学的大模型。

比如,今天的主角:Qwen2-Math-72B。

上周,阿里就发布了一个世界最强数学模型,在math数据集上一骑绝尘,远超各种闭源模型,甚至超过了其他大型开源数学模型。

模型具体信息移步今日的推文《阿里推出世界最强的数学模型Qwen2-Math,击败GPT4o、Claude3.5》。

今天,阿里又放出了一个多模态demo,通过另一个模型Qwen2-VL的加持,为Qwen2-Math提供处理图片文本的能力。

也就是说,现在可以拍照搜题了!

这个多模态模型可以直接在hugging face上测试,我把链接贴在下面了:

https://huggingface.co/spaces/Qwen/Qwen2-Math-Demo

千问还给出了一些使用例,无论是步骤还是答案确实可以:

光看官方给出的效果确实客观,可是具体好不好用,还得自己上手试试才知道。

拍照搜题正确率怎么样?让我来试试

既然能拍照搜题,那当然是要拿图片来提问了。

Round 1:简单计算

让我们先来道普通的算术题,通过计算器都可以计算出来。

比如这个:

拿着这个这道题目去问……确实答对了!

诶,我们来问这个难倒无数AI的经典题目:

9.8和9.11哪个大?

我的天!千问居然答对了!

前后换个顺序问问,也答对了。

我们换一个题型。

Round 2:代数

来试试我们最经典的代数题吧。既然官方演示使用的也是代数题目,说明这方面的能力也不在话下。

就拿这个题目来试试吧,上点强度:

然后,我便开始苦苦等待,仿佛这道题难倒它了,足足等了2分钟……

但结果不负众望,它答对了,代数强者恐怖如斯。

不过,还不能急着下结论,我们的重头戏还没上呢!

3.5研究测试:hujiaoai.cn4研究测试:askmanyai.cnClaude-3研究测试:hiclaude3.com

Round 3:概率

概率题我们就上点难度,直接拿出2023年的新高考1卷概率题来提问:

我们先来看标准答案吧!

貌似概率题目考的实在是太理想化了,千问水灵灵的给出了错误答案:

第二问就差一点就做对了,思路是好的,但是错了就是错了。

好吧好吧,我们还是直接上重头戏:几何图形!

Round 4:几何

关于几何题,评论区的网友们给出了绝佳的事例:

坏了,我刚看到这个题目时,我也懵了,这题该咋做啊!

不过还是做出来了,答案是4π-8 。

不行,我得看看千问会不会。

哎呀,啰里啰嗦一堆,结果还是做错了。看来千问的几何能力还有待提升啊!

最后我们再来一个比较针对性的测试:

Round 5:多模态能力

还有一名网友给出了一个事例,同时出现多种计算符号会让多模态文本处理“宕机”,从而给出错误的答案。

拿去一问,果然千问做错了。

今天测试的一共6道题,Qwen2-Math 3对3错。

从测试的case感受讲,计算代数问题能力不错,但是比较高阶的概率和几何图形就cover不住了。

看来,数学模型的多模态发展还是任重道远啊!

我还特意去了解了一下国家9年义务教育对各个阶段要求掌握具备的数学能力是咋样的!

2022年版(数学课程标准)是这样定义的

你们觉得这版模型能力是什么水平??

我还是非常期待,在多模态文本识别方面,阿里还能继续披荆斩棘,打造数学AI模型的国产之光。

愿国产AI无惧风雨,一直在路上。

参考资料 [1]https://x.com/Alibaba_Qwen/status/1825559009497317406

0 阅读:0

科技有夕小瑶

简介:感谢大家的关注