玩酷网

Lmsys Chatbot Arena 这类由人类评估的大模型排行榜，最大的毛

2024-08-30 13:17:16 蚁工厂科技

Lmsys Chatbot Arena 这类由人类评估的大模型排行榜，最大的毛病就是评判者容易受到回答风格的影响而有所偏好，忽略实际回答内容的质量。所以现在他们做了下改进，加了下控制回答长度和风格的评测项。结果果然GPT-4o-mini 和 Grok-2-mini 这类模型的成绩都开始往下掉了。

阅读：0 点赞：0