Spatial Reasoning in Multimodal Large Language Models: A Survey of Tasks, Benchmarks and Methods

作者: Weichen Liu, Qiyao Xue, Haoming Wang, Xiangyu Yin, Boyuan Yang, Wei Gao

分类: cs.AI

发布日期: 2025-11-14

💡 一句话要点

综述多模态大语言模型中的空间推理：任务、基准与方法

🎯 匹配领域: 支柱七：动作重定向 (Motion Retargeting) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 空间推理 多模态大语言模型 认知科学 基准数据集 具身智能

📋 核心要点

多模态大语言模型在空间推理方面面临挑战，现有方法侧重于输入模态，忽略了认知层面的空间智能。
论文提出一种基于认知功能的空间智能分类法，将任务按推理复杂性划分，并映射到现有基准上。
论文分析了基于训练和推理的方法，揭示了它们各自的优势和互补机制，为未来研究提供方向。

📝 摘要（中文）

空间推理是人类智能的一个基本方面，它需要感知和操纵3D世界中的空间关系的能力，但对于多模态大型语言模型（MLLM）来说，这仍然是一个持续的挑战。现有的综述通常基于输入模态（例如，文本、图像、视频或3D）对最近的进展进行分类，但我们认为空间能力并非完全由输入格式决定。相反，我们的综述引入了一种分类法，从认知角度组织空间智能，并根据推理复杂性划分任务，将其与几个认知功能联系起来。我们将现有的文本、视觉语言和具身环境下的基准映射到这个分类法上，并回顾了评估空间推理能力的评估指标和方法。这种认知视角能够进行更有效的跨任务比较，并揭示当前模型能力与类人推理之间的关键差距。此外，我们分析了改进空间能力的方法，包括基于训练和基于推理的方法。这种双重视角的分析阐明了它们各自的优势，揭示了互补机制。通过调查任务、基准和最近的进展，我们旨在为新的研究人员提供对该领域的全面理解和未来研究的可行方向。

🔬 方法详解

问题定义：多模态大语言模型（MLLMs）在理解和处理3D空间关系方面存在困难。现有的研究往往侧重于特定输入模态（如图像、文本等），缺乏对空间推理能力本身的系统性分析和评估，难以进行跨任务的比较和泛化。因此，如何从认知角度理解空间智能，并设计有效的评估基准和改进方法，是当前面临的挑战。

核心思路：论文的核心思路是从认知科学的角度出发，将空间智能分解为不同的认知功能，并根据推理的复杂程度对任务进行分类。通过建立任务与认知功能之间的联系，可以更全面地评估MLLMs的空间推理能力，并发现模型在不同方面的优势和不足。同时，论文还分析了现有的训练和推理方法，旨在找到提升MLLMs空间推理能力的有效途径。

技术框架：论文构建了一个空间智能的认知分类框架，包括空间感知、空间关系理解、空间推理和空间规划等几个层次。然后，论文将现有的基准数据集（包括文本、视觉语言和具身环境）映射到这个分类框架上，并分析了不同任务的评估指标和方法。此外，论文还对现有的训练方法（如数据增强、对比学习等）和推理方法（如符号推理、神经符号推理等）进行了综述和比较。

关键创新：论文的关键创新在于提出了一个基于认知功能的空间智能分类框架，打破了以往基于输入模态的分类方式。这种新的分类方式能够更准确地评估MLLMs在不同认知层面的空间推理能力，并为未来的研究提供更清晰的方向。此外，论文还对现有的训练和推理方法进行了系统性的分析和比较，揭示了它们各自的优势和局限性。

关键设计：论文的关键设计包括：1) 空间智能的认知分类框架，详细定义了不同认知功能（如空间感知、空间关系理解等）的具体内容；2) 将现有基准数据集映射到认知分类框架的方法，确保评估的全面性和可比性；3) 对训练和推理方法的分类和分析，突出了不同方法的适用场景和潜在改进方向。论文没有涉及具体的参数设置或网络结构，而是侧重于对现有方法的综述和分析。

🖼️ 关键图片

📊 实验亮点

论文通过认知分类法对现有基准进行分析，揭示了MLLM在不同空间推理任务上的表现差异。例如，模型在空间感知任务上表现较好，但在复杂的空间推理和规划任务上仍存在不足。此外，论文还对比了不同训练和推理方法的效果，发现结合符号推理的神经符号方法在某些任务上表现出更好的性能。

🎯 应用场景

该研究成果可应用于机器人导航、自动驾驶、虚拟现实、增强现实等领域。通过提升多模态大语言模型的空间推理能力，可以使机器人在复杂环境中更好地理解和交互，从而实现更智能化的应用。未来的研究可以进一步探索如何将认知科学的理论与深度学习模型相结合，以构建更强大的空间智能系统。

📄 摘要（原文）

Spatial reasoning, which requires ability to perceive and manipulate spatial relationships in the 3D world, is a fundamental aspect of human intelligence, yet remains a persistent challenge for Multimodal large language models (MLLMs). While existing surveys often categorize recent progress based on input modality (e.g., text, image, video, or 3D), we argue that spatial ability is not solely determined by the input format. Instead, our survey introduces a taxonomy that organizes spatial intelligence from cognitive aspect and divides tasks in terms of reasoning complexity, linking them to several cognitive functions. We map existing benchmarks across text only, vision language, and embodied settings onto this taxonomy, and review evaluation metrics and methodologies for assessing spatial reasoning ability. This cognitive perspective enables more principled cross-task comparisons and reveals critical gaps between current model capabilities and human-like reasoning. In addition, we analyze methods for improving spatial ability, spanning both training-based and reasoning-based approaches. This dual perspective analysis clarifies their respective strengths, uncovers complementary mechanisms. By surveying tasks, benchmarks, and recent advances, we aim to provide new researchers with a comprehensive understanding of the field and actionable directions for future research.

Spatial Reasoning in Multimodal Large Language Models: A Survey of Tasks, Benchmarks and Methods

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理