玩酷网

豆包大模型高考(山东卷)测试排名全省前80 达“清北”水平

上证报中国证券网讯(记者罗茂林)近日,随着2025年全国高考志愿填报的全面开启,字节跳动Seed团队使用山东高考全科试卷(语数英全国新一卷+其他学科山东自主命题),对豆包大模型1.6及业界主流推理模型进行了测评。

在包含378分图像题的全科试卷中(物理图像题占94分、地理76分),其文科总分683分位列榜首,地理、历史分别拿下94分和92分,将地图信息与文字史料的关联分析转化为优势。理科方面,尽管化学生物因网络试题图像模糊而丢掉一些分数,但物理90分的成绩已超越大部分人类考生。

总体来看,相较2024年,豆包1.6理科预估分提升181.5分,文科提升140.5分。当团队更换高清试题图片后,生化两科总分再提升近30分,理科总分可达676分。有分析指出,此次突破源于测评方式的“人类化”,即采用“题目文本+截图”的输入模式,在不使用提示工程的前提下,模型通过多模态理解准确解析了化学分子结构式等复杂图像。

根据过往经验判断,3门副科的赋分相比原始分会有一定程度的提高,尤其是在化学、物理等难度较大的科目上。山东高考采用“3+3”形式,豆包大模型1.6如果选择物理、历史、地理三门副科,总分可达689,赋分成绩将超过690分。根据山东省高考一分一段表,这个成绩排名全省前80位,有望在山东考上清华北大。

值得关注的是,今年测评的一个关键变化,相较于去年普遍存在的“幻觉答题”现象(如虚构历史事件),豆包1.6整合事实性知识的水平显著提升。以“长征途经哪些省份”这类文科类经典题型为例,大模型不仅能准确罗列,还能关联地理气候特征分析行军难度,具有“举一反三”的能力,本质是多模态训练带来的知识结构化升级。