玩酷网

Lmsys Chatbot Arena 这类由人类评估的大模型排行榜,最大的毛

Lmsys Chatbot Arena 这类由人类评估的大模型排行榜,最大的毛病就是评判者容易受到回答风格的影响而有所偏好,忽略实际回答内容的质量。所以现在他们做了下改进,加了下控制回答长度和风格的评测项。结果果然GPT-4o-mini 和 Grok-2-mini 这类模型的成绩都开始往下掉了。 ​​​