o3绞尽脑汁仅答对40%题目多图空间智能试金石针对多图像空间推理能力的挑战性测试

o3绞尽脑汁仅答对40%题目多图空间智能试金石

针对多图像空间推理能力的挑战性测试来了，它揭示了现有开源大模型的短板——准确率不到30%，甚至比随机猜测还差！就连最强的OpenAI o3模型，表现也仅仅是答对了41%。

空间推理是指理解物体的位置、运动等空间关系。这种能力在现实世界中至关重要，尤其是涉及到机器人或自动驾驶系统时，它们必须能够在多个图像和场景间进行推理，判断物体间的相对位置、运动轨迹等。

尽管多个大模型（如OpenAI的o3、GPT-4等）在单一图像上的表现优异，但在多图像空间推理上，尤其是在结合多图像信息时，它们的表现大幅下滑。经过MMSI-Bench测试，开源大模型普遍低于30%的准确率，甚至连最强的商业模型（如o3）也只是答对了41%的问题，而人类则能达到97%以上。

玩酷网