惊了...让大语言模型做 2025 年刚出的高考真题，表现最好的 Gemini

惊了...让大语言模型做 2025 年刚出的高考真题，表现最好的 Gemini 2.5 Pro 理科总分 655 分、文科总分 651，够到清北了。

DeepSeek - R1 数学拿了 145 分，也在全国人类考生的前 1% 了。

这是字节做的研究，语数外用的新国标全国 I 卷，其他科目用的山东省自主命题，满分 750 分。

关于打分，选择题填空题都好说，文科的开放题请了两位来自重点高中，有联考判卷经验的高中老师进行匿名评估，也有多轮质检，确保评分的准确。

除了开放题，还有英语的听力，这里默认所有模型英语听力都拿了满分，所以英语分数普遍略有偏高。

直接用今年的真题以验证模型的泛化能力，不提前引入 prompting engineering 以更好的呈现模型的真实水平。整个研究做得还是比较严肃的。

玩酷网