LEGO-Puzzles: How Good Are MLLMs at Multi-Step Spatial Reasoning?

📄 arXiv: 2503.19990v3 📥 PDF

作者: Kexian Tang, Junyao Gao, Yanhong Zeng, Haodong Duan, Yanan Sun, Zhening Xing, Wenran Liu, Kaifeng Lyu, Kai Chen

分类: cs.AI

发布日期: 2025-03-25 (更新: 2025-06-20)

备注: 11 pages, 3 figures


💡 一句话要点

提出LEGO-Puzzles基准,揭示MLLM在多步空间推理上的局限性

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱七:动作重定向 (Motion Retargeting) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 空间推理 视觉问答 基准数据集 大型语言模型 乐高积木 图像生成

📋 核心要点

  1. 现有MLLM在机器人操作、自动导航等复杂现实应用所需的多步空间推理能力方面存在不足。
  2. 提出LEGO-Puzzles基准,利用乐高积木任务评估MLLM的空间理解和顺序推理能力。
  3. 实验表明,现有MLLM在LEGO-Puzzles上的表现远低于人类水平,揭示了其空间推理能力的局限性。

📝 摘要(中文)

本文提出了LEGO-Puzzles,一个可扩展的基准,旨在评估多模态大型语言模型(MLLM)在基于乐高积木任务中的空间理解和顺序推理能力。LEGO-Puzzles包含1100个精心设计的视觉问答(VQA)样本,涵盖从基础空间理解到复杂多步推理的11个不同任务。通过对20个最先进的MLLM进行全面评估,发现它们在空间推理能力方面存在显著局限性:即使是最强大的MLLM也只能回答大约一半的测试用例,而人类参与者可以达到90%以上的准确率。此外,还设计了生成任务,以研究MLLM是否能将其空间理解和推理能力转移到图像生成。实验表明,只有GPT-4o和Gemini-2.0-Flash表现出有限的遵循指令能力,而其他MLLM要么复制输入图像,要么生成完全不相关的输出。总体而言,LEGO-Puzzles揭示了现有MLLM在空间理解和顺序推理能力方面的关键缺陷,并强调了进一步推进多模态空间推理的必要性。

🔬 方法详解

问题定义:论文旨在评估多模态大型语言模型(MLLM)在多步空间推理方面的能力。现有方法在处理需要理解和推理多个连续步骤中的空间关系的任务时表现不佳,这限制了它们在机器人操作、自动导航和自动组装等复杂现实世界应用中的应用。

核心思路:论文的核心思路是构建一个专门用于评估MLLM空间推理能力的基准数据集,即LEGO-Puzzles。该基准基于乐高积木任务,通过视觉问答和图像生成任务来考察MLLM的空间理解和顺序推理能力。选择乐高积木是因为其具有结构化和可组合的特性,能够方便地构建各种复杂场景。

技术框架:LEGO-Puzzles基准包含1100个视觉问答(VQA)样本,涵盖11个不同的任务,从基础空间理解到复杂的多步推理。此外,还设计了图像生成任务,要求MLLM根据指令生成乐高积木的图像。评估过程包括使用各种最先进的MLLM(共20个)在LEGO-Puzzles上进行测试,并与人类表现进行比较。

关键创新:LEGO-Puzzles的主要创新在于其专门针对MLLM的空间推理能力而设计,并提供了一个可扩展的评估框架。与现有的通用VQA数据集相比,LEGO-Puzzles更加关注空间关系和顺序推理,能够更有效地揭示MLLM在这方面的局限性。此外,图像生成任务也为评估MLLM的空间理解能力提供了一个新的视角。

关键设计:LEGO-Puzzles中的VQA样本包括不同类型的空间关系(例如,上方、下方、左侧、右侧)和不同复杂度的推理步骤(从单步到多步)。图像生成任务要求MLLM根据文本指令生成乐高积木的图像,指令可能包含空间关系和顺序操作。评估指标包括VQA的准确率和生成图像的质量(例如,是否符合指令、是否具有空间一致性)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,即使是最强大的MLLM在LEGO-Puzzles上的准确率也仅为50%左右,远低于人类的90%以上。在图像生成任务中,只有GPT-4o和Gemini-2.0-Flash表现出有限的遵循指令能力,而其他MLLM要么复制输入图像,要么生成完全不相关的输出。这些结果表明,现有MLLM在空间理解和顺序推理方面存在显著的局限性。

🎯 应用场景

该研究成果可应用于机器人操作、自动驾驶、智能制造等领域。通过提升MLLM的空间推理能力,可以使机器人更好地理解和操作物体,实现更智能的导航和更高效的自动化装配。此外,该基准数据集可以促进相关算法的开发和改进,推动多模态空间推理技术的发展。

📄 摘要(原文)

Multi-step spatial reasoning entails understanding and reasoning about spatial relationships across multiple sequential steps, which is crucial for tackling complex real-world applications, such as robotic manipulation, autonomous navigation, and automated assembly. To assess how well current Multimodal Large Language Models (MLLMs) have acquired this fundamental capability, we introduce LEGO-Puzzles, a scalable benchmark designed to evaluate both spatial understanding and sequential reasoning in MLLMs through LEGO-based tasks. LEGO-Puzzles consists of 1,100 carefully curated visual question-answering (VQA) samples spanning 11 distinct tasks, ranging from basic spatial understanding to complex multi-step reasoning. Based on LEGO-Puzzles, we conduct a comprehensive evaluation of 20 state-of-the-art MLLMs and uncover significant limitations in their spatial reasoning capabilities: even the most powerful MLLMs can answer only about half of the test cases, whereas human participants achieve over 90% accuracy. Furthermore, based on LEGO-Puzzles, we design generation tasks to investigate whether MLLMs can transfer their spatial understanding and reasoning abilities to image generation. Our experiments show that only GPT-4o and Gemini-2.0-Flash exhibit a limited ability to follow these instructions, while other MLLMs either replicate the input image or generate completely irrelevant outputs. Overall, LEGO-Puzzles exposes critical deficiencies in existing MLLMs' spatial understanding and sequential reasoning capabilities, and underscores the need for further advancements in multimodal spatial reasoning.