现在大模型的基准测试名字花样也越来越多了。scale发布了一个叫“人类的最后一测

2025-01-24 09:15:29 蚁工厂科技

现在大模型的基准测试名字花样也越来越多了。scale发布了一个叫“人类的最后一测” Humanity's Last Exam (HLE) 的全新多模态基准测试。（名字似乎不太吉利 [汗] ）

搞这个的原因是现有的基准测试（如 MMLU）已经趋于饱和（这话这几年也很耳熟了），LLM 在这些测试中可以达到超过 90% 的准确率，这使得它们无法有效评估最先进的 LLM 能力。所以他们提高了难度，在这个测试里100分的题目前的大模型还没有能得分超过10分的。。