o3绞尽脑汁仅答对40%题目多图空间智能试金石
针对多图像空间推理能力的挑战性测试来了,它揭示了现有开源大模型的短板——准确率不到30%,甚至比随机猜测还差!就连最强的OpenAI o3模型,表现也仅仅是答对了41%。
空间推理是指理解物体的位置、运动等空间关系。这种能力在现实世界中至关重要,尤其是涉及到机器人或自动驾驶系统时,它们必须能够在多个图像和场景间进行推理,判断物体间的相对位置、运动轨迹等。
尽管多个大模型(如OpenAI的o3、GPT-4等)在单一图像上的表现优异,但在多图像空间推理上,尤其是在结合多图像信息时,它们的表现大幅下滑。经过MMSI-Bench测试,开源大模型普遍低于30%的准确率,甚至连最强的商业模型(如o3)也只是答对了41%的问题,而人类则能达到97%以上。