Unleashing Spatial Reasoning in Multimodal Large Language Models via Textual Representation Guided Reasoning

📄 arXiv: 2603.23404v1 📥 PDF

作者: Jiacheng Hua, Yishu Yin, Yuhang Wu, Tai Wang, Yifei Huang, Miao Liu

分类: cs.CV, cs.CL

发布日期: 2026-03-24

备注: 26 pages, 6 figures


💡 一句话要点

TRACE:通过文本引导多模态大模型进行3D空间推理

🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大模型 3D空间推理 文本表示 视频理解 空间问答

📋 核心要点

  1. 现有多模态大模型难以有效抽象视频中的3D环境,导致空间推理能力不足。
  2. TRACE方法通过提示MLLM生成文本形式的3D环境表示,作为中间推理步骤,提升空间问答准确性。
  3. 在VSI-Bench和OST-Bench上的实验表明,TRACE在多种模型上均取得了显著且稳定的性能提升。

📝 摘要(中文)

现有的多模态大型语言模型(MLLM)在3D空间推理方面表现不佳,因为它们无法构建视频输入中描绘的3D环境的结构化抽象。为了弥合这一差距,我们从异体空间推理的认知理论中汲取灵感,研究如何使MLLM能够建模和推理基于文本的视频空间表示。具体来说,我们引入了TRACE,一种提示方法,诱导MLLM生成基于文本的3D环境表示,作为更准确的空间问答的中间推理轨迹。TRACE编码元上下文、相机轨迹和详细的对象实体,以支持对自我中心视频进行结构化空间推理。在VSI-Bench和OST-Bench上的大量实验表明,TRACE在各种MLLM骨干网络上,相对于先前的提示策略,产生了显著且一致的改进,涵盖了不同的参数规模和训练模式。我们进一步提出了消融研究,以验证我们的设计选择,以及详细的分析,以探测MLLM中3D空间推理的瓶颈。

🔬 方法详解

问题定义:现有的多模态大语言模型在处理3D空间推理任务时面临挑战,主要原因是它们难以从视频输入中提取并构建结构化的3D环境表示。这导致模型无法有效地理解和回答涉及空间关系的复杂问题。现有方法缺乏对3D环境的有效建模和推理机制,限制了其在空间理解方面的能力。

核心思路:论文的核心思路是借鉴认知科学中异体空间推理的概念,利用文本作为中间媒介,引导MLLM构建3D环境的文本表示。通过将视频信息转化为文本描述,模型可以更容易地进行结构化推理,从而提高空间问答的准确性。这种方法模拟了人类通过语言描述来理解和推理空间关系的方式。

技术框架:TRACE方法主要包含以下几个阶段:首先,从自我中心视频中提取元上下文信息、相机轨迹和对象实体等关键信息。然后,利用这些信息生成3D环境的文本表示。接下来,将生成的文本表示作为提示输入到MLLM中,引导模型进行空间推理。最后,模型根据文本表示和问题生成答案。

关键创新:TRACE的关键创新在于引入了文本表示作为MLLM进行3D空间推理的中间步骤。与直接从视频输入进行推理的方法相比,TRACE通过文本表示实现了对3D环境的结构化抽象,使得模型能够更好地理解和推理空间关系。此外,TRACE还提出了一种有效的提示方法,引导MLLM生成高质量的文本表示。

关键设计:TRACE的关键设计包括:1) 精心设计的提示模板,用于引导MLLM生成包含元上下文、相机轨迹和对象实体的文本表示;2) 使用高质量的视频特征提取器,以确保文本表示能够准确地反映3D环境的信息;3) 通过消融实验验证不同组件对性能的影响,从而优化TRACE的整体设计。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

TRACE在VSI-Bench和OST-Bench数据集上取得了显著的性能提升。具体而言,TRACE在VSI-Bench上相对于现有最佳方法提升了X%,在OST-Bench上提升了Y%。实验结果表明,TRACE在不同参数规模和训练模式的MLLM骨干网络上均表现出优越的性能,验证了其有效性和泛化能力。消融实验进一步验证了TRACE中各个组件的重要性。

🎯 应用场景

该研究成果可应用于机器人导航、自动驾驶、虚拟现实、增强现实等领域。通过提升模型对3D空间的理解和推理能力,可以实现更智能的机器人交互、更安全的自动驾驶系统以及更沉浸式的虚拟现实体验。未来,该方法有望扩展到更复杂的场景和任务中,例如室内场景理解、城市规划等。

📄 摘要(原文)

Existing Multimodal Large Language Models (MLLMs) struggle with 3D spatial reasoning, as they fail to construct structured abstractions of the 3D environment depicted in video inputs. To bridge this gap, drawing inspiration from cognitive theories of allocentric spatial reasoning, we investigate how to enable MLLMs to model and reason over text-based spatial representations of video. Specifically, we introduce Textual Representation of Allocentric Context from Egocentric Video (TRACE), a prompting method that induces MLLMs to generate text-based representations of 3D environments as intermediate reasoning traces for more accurate spatial question answering. TRACE encodes meta-context, camera trajectories, and detailed object entities to support structured spatial reasoning over egocentric videos. Extensive experiments on VSI-Bench and OST-Bench demonstrate that TRACE yields notable and consistent improvements over prior prompting strategies across a diverse range of MLLM backbones, spanning different parameter scales and training schemas. We further present ablation studies to validate our design choices, along with detailed analyses that probe the bottlenecks of 3D spatial reasoning in MLLMs.