打开APP Store,各种搜题软件太多了!
拍搜赛道不止服务于K12学段的学生、老师、家长等广大的用户群体,大学生、考研、考公等任何学习场景都有需求。
除了作业帮、猿辅导等传统教培企业一直在拍搜赛道深耕,一些互联网巨头这些年也纷纷入局推出产品,比如阿里的夸克搜索也上线了拍照搜题功能,还有字节的闪电搜题和Gauth(面向海外市场的AI教育产品)。
大模型爆火以来,AI教育创企和产品也是多了很多,比如MathGPT、Solvely、Answer.ai等,数学作为大模型需要攻克的场景之一,出现了很多专攻数学的大模型。
比如,今天的主角:Qwen2-Math-72B。
上周,阿里就发布了一个世界最强数学模型,在math数据集上一骑绝尘,远超各种闭源模型,甚至超过了其他大型开源数学模型。
模型具体信息移步今日的推文《阿里推出世界最强的数学模型Qwen2-Math,击败GPT4o、Claude3.5》。
今天,阿里又放出了一个多模态demo,通过另一个模型Qwen2-VL的加持,为Qwen2-Math提供处理图片文本的能力。
也就是说,现在可以拍照搜题了!
这个多模态模型可以直接在hugging face上测试,我把链接贴在下面了:
https://huggingface.co/spaces/Qwen/Qwen2-Math-Demo
千问还给出了一些使用例,无论是步骤还是答案确实可以:
光看官方给出的效果确实客观,可是具体好不好用,还得自己上手试试才知道。
拍照搜题正确率怎么样?让我来试试既然能拍照搜题,那当然是要拿图片来提问了。
Round 1:简单计算让我们先来道普通的算术题,通过计算器都可以计算出来。
比如这个:
拿着这个这道题目去问……确实答对了!
诶,我们来问这个难倒无数AI的经典题目:
9.8和9.11哪个大?
我的天!千问居然答对了!
前后换个顺序问问,也答对了。
我们换一个题型。
Round 2:代数来试试我们最经典的代数题吧。既然官方演示使用的也是代数题目,说明这方面的能力也不在话下。
就拿这个题目来试试吧,上点强度:
然后,我便开始苦苦等待,仿佛这道题难倒它了,足足等了2分钟……
但结果不负众望,它答对了,代数强者恐怖如斯。
不过,还不能急着下结论,我们的重头戏还没上呢!
3.5研究测试:hujiaoai.cn4研究测试:askmanyai.cnClaude-3研究测试:hiclaude3.com
Round 3:概率概率题我们就上点难度,直接拿出2023年的新高考1卷概率题来提问:
我们先来看标准答案吧!
貌似概率题目考的实在是太理想化了,千问水灵灵的给出了错误答案:
第二问就差一点就做对了,思路是好的,但是错了就是错了。
好吧好吧,我们还是直接上重头戏:几何图形!
Round 4:几何关于几何题,评论区的网友们给出了绝佳的事例:
坏了,我刚看到这个题目时,我也懵了,这题该咋做啊!
不过还是做出来了,答案是4π-8 。
不行,我得看看千问会不会。
哎呀,啰里啰嗦一堆,结果还是做错了。看来千问的几何能力还有待提升啊!
最后我们再来一个比较针对性的测试:
Round 5:多模态能力还有一名网友给出了一个事例,同时出现多种计算符号会让多模态文本处理“宕机”,从而给出错误的答案。
拿去一问,果然千问做错了。
今天测试的一共6道题,Qwen2-Math 3对3错。
从测试的case感受讲,计算代数问题能力不错,但是比较高阶的概率和几何图形就cover不住了。
看来,数学模型的多模态发展还是任重道远啊!
我还特意去了解了一下国家9年义务教育对各个阶段要求掌握具备的数学能力是咋样的!
2022年版(数学课程标准)是这样定义的
你们觉得这版模型能力是什么水平??
我还是非常期待,在多模态文本识别方面,阿里还能继续披荆斩棘,打造数学AI模型的国产之光。
愿国产AI无惧风雨,一直在路上。
参考资料 [1]https://x.com/Alibaba_Qwen/status/1825559009497317406