Boosting MLLM Spatial Reasoning with Geometrically Referenced 3D Scene Representations

📄 arXiv: 2603.08592v1 📥 PDF

作者: Jiangye Yuan, Gowri Kumar, Baoyuan Wang

分类: cs.CV

发布日期: 2026-03-09


💡 一句话要点

提出GR3D,增强MLLM在几何参考3D场景中的空间推理能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 3D空间推理 几何参考 场景表示 零样本学习

📋 核心要点

  1. 现有MLLM在2D视觉理解表现出色,但在3D空间推理方面存在明显不足,难以理解和利用3D几何信息。
  2. 论文提出GR3D,通过将3D几何属性编码为文本引用,使MLLM能够利用其语言能力进行数学推理,从而理解3D场景。
  3. 实验表明,GR3D在零样本设置下显著提升了MLLM在VSI-Bench上的性能,尤其是在空间布局理解任务中。

📝 摘要(中文)

多模态大型语言模型(MLLM)在2D视觉理解方面取得了显著成功,但其3D空间推理能力仍然有限。为了解决这个问题,我们引入了几何参考3D场景表示(GR3D)。给定一组输入图像,GR3D使用唯一的ID标注图像中的对象,并将它们的3D几何属性编码为由这些ID索引的文本引用。这种表示使MLLM能够利用其先进的基于语言的数学推理技能来解释3D线索,同时以紧密耦合的方式分析2D视觉特征。我们提出了一种基于GR3D的简单而有效的方法,该方法不需要额外的训练,并且可以很容易地应用于不同的MLLM。在零样本设置中,我们的方法使GPT-5在VSI-Bench上的整体性能提高了8%,在严重依赖空间布局理解的任务上提高了11%以上。定性研究进一步表明,GR3D使MLLM能够使用高度稀疏的输入视图执行复杂的空间推理。

🔬 方法详解

问题定义:现有的多模态大语言模型(MLLM)在2D视觉理解方面表现出色,但在3D空间推理能力上存在局限性。它们难以有效地利用3D几何信息进行推理,尤其是在需要理解物体之间的空间关系和布局的任务中。现有的方法要么依赖于复杂的3D模型,要么无法充分利用MLLM强大的语言理解和推理能力。

核心思路:论文的核心思路是将3D场景的几何信息以一种MLLM能够理解的方式进行编码,即通过文本引用。具体来说,就是将场景中的物体用唯一的ID进行标识,并将它们的3D几何属性(如位置、大小、方向等)编码为由这些ID索引的文本描述。这样,MLLM就可以利用其强大的语言能力,结合这些文本描述和2D视觉信息,进行3D空间推理。

技术框架:整体框架包括以下几个步骤:1) 输入一组图像;2) 使用3D重建算法(如SfM或SLAM)重建场景的3D模型;3) 对场景中的物体进行ID标注;4) 将物体的3D几何属性编码为文本描述,并使用物体ID进行索引;5) 将带有文本描述的图像输入MLLM进行推理。整个过程无需对MLLM进行额外的训练。

关键创新:最关键的创新点在于将3D几何信息以文本引用的形式融入到MLLM的输入中。这种方法充分利用了MLLM强大的语言理解和推理能力,使其能够更好地理解和利用3D几何信息。与直接输入3D模型或点云相比,这种方法更加灵活和高效,并且可以很容易地应用于不同的MLLM。

关键设计:关键设计包括:1) 使用唯一的ID来标识场景中的物体,确保MLLM能够准确地引用和理解这些物体;2) 精心设计文本描述的格式,使其既包含足够的几何信息,又易于MLLM理解;3) 在推理过程中,允许MLLM自由地查询和组合不同的文本描述,从而进行复杂的空间推理。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,GR3D在VSI-Bench数据集上显著提升了GPT-5的性能,整体提升了8%,在空间布局理解任务上提升了超过11%。此外,定性研究表明,GR3D使MLLM能够使用高度稀疏的输入视图执行复杂的空间推理,这表明该方法具有很强的鲁棒性和泛化能力。该方法在零样本设置下即可生效,无需额外的训练。

🎯 应用场景

该研究成果可应用于机器人导航、自动驾驶、虚拟现实、增强现实等领域。通过增强MLLM对3D场景的理解能力,可以使机器人更好地感知和操作周围环境,提高自动驾驶系统的安全性,并为用户提供更沉浸式的虚拟现实体验。未来,该方法还可以扩展到其他模态的数据,如声音和触觉,从而实现更全面的场景理解。

📄 摘要(原文)

While Multimodal Large Language Models (MLLMs) have achieved remarkable success in 2D visual understanding, their ability to reason about 3D space remains limited. To address this gap, we introduce geometrically referenced 3D scene representations (GR3D). Given a set of input images, GR3D annotates objects in the images with unique IDs and encodes their 3D geometric attributes as textual references indexed by these IDs. This representation enables MLLMs to interpret 3D cues using their advanced language-based skills in mathematical reasoning, while concurrently analyzing 2D visual features in a tightly coupled way. We present a simple yet effective approach based on GR3D, which requires no additional training and is readily applicable to different MLLMs. Implemented in a zero-shot setting, our approach boosts GPT-5's performance on VSI-Bench by 8% overall and more than 11% on tasks that rely heavily on spatial layout understanding. Qualitative studies further demonstrate that GR3D empowers MLLMs to perform complex spatial reasoning with highly sparse input views.