惊了...让大语言模型做 2025 年刚出的高考真题,表现最好的 Gemini 2.5 Pro 理科总分 655 分、文科总分 651,够到清北了。
DeepSeek - R1 数学拿了 145 分,也在全国人类考生的前 1% 了。
这是字节做的研究,语数外用的新国标全国 I 卷,其他科目用的山东省自主命题,满分 750 分。
关于打分,选择题填空题都好说,文科的开放题请了两位来自重点高中,有联考判卷经验的高中老师进行匿名评估,也有多轮质检,确保评分的准确。
除了开放题,还有英语的听力,这里默认所有模型英语听力都拿了满分,所以英语分数普遍略有偏高。
直接用今年的真题以验证模型的泛化能力,不提前引入 prompting engineering 以更好的呈现模型的真实水平。整个研究做得还是比较严肃的。