Make Geometry Matter for Spatial Reasoning

📄 arXiv: 2603.26639v1 📥 PDF

作者: Shihua Zhang, Qiuhong Shen, Shizun Wang, Tianbo Pan, Xinchao Wang

分类: cs.CV, cs.AI

发布日期: 2026-03-27

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出GeoSR框架,增强视觉语言模型在静态和动态场景中的空间推理能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 空间推理 视觉语言模型 几何信息 掩码策略 门控融合

📋 核心要点

  1. 现有视觉语言模型在空间推理能力上存在不足,过度依赖2D视觉线索,未能充分利用几何信息。
  2. GeoSR框架通过几何释放掩码和几何引导融合,促使模型主动利用几何标记进行空间推理。
  3. 实验结果表明,GeoSR在静态和动态空间推理任务上均超越现有方法,达到新的最佳性能。

📝 摘要(中文)

视觉语言模型(VLMs)通过大规模训练在图像和视频理解方面取得了显著进展,但它们在静态场景和动态视频中执行空间推理的能力仍然有限。最近的研究尝试通过将预训练3D基础模型中的几何标记注入VLMs来解决这一限制。然而,我们观察到,简单的标记融合以及后续的标准微调往往导致几何线索未被充分利用,因为VLMs倾向于严重依赖2D视觉线索。本文提出了GeoSR框架,旨在通过鼓励VLMs主动利用几何标记进行推理,从而使几何信息发挥关键作用。GeoSR引入了两个关键组件:(1)几何释放掩码,在训练期间策略性地屏蔽部分2D视觉标记,以削弱非几何捷径,并迫使模型参考几何标记进行空间推理;(2)几何引导融合,一种门控路由机制,自适应地放大几何证据至关重要的区域中几何标记的贡献。这些设计共同释放了几何标记在空间推理任务中的潜力。在静态和动态空间推理基准上的大量实验表明,GeoSR始终优于现有方法,并通过有效利用几何信息建立了新的state-of-the-art性能。

🔬 方法详解

问题定义:现有视觉语言模型(VLMs)在空间推理任务中表现不佳,主要原因是它们过度依赖2D视觉信息,而忽略了3D几何信息。即使将3D几何信息融入VLMs,模型也倾向于利用2D视觉捷径,导致几何信息未被充分利用。因此,如何有效利用几何信息来提升VLMs的空间推理能力是一个关键问题。

核心思路:GeoSR的核心思路是迫使VLMs更加依赖几何信息进行空间推理。通过在训练过程中策略性地屏蔽部分2D视觉信息,模型必须依赖几何信息才能完成任务。同时,通过几何引导融合机制,增强几何信息在关键区域的贡献,从而提高模型对几何信息的敏感度。

技术框架:GeoSR框架主要包含两个关键模块:几何释放掩码(Geometry-Unleashing Masking)和几何引导融合(Geometry-Guided Fusion)。首先,几何释放掩码在训练过程中随机屏蔽部分2D视觉tokens,迫使模型更多地依赖几何tokens进行推理。然后,几何引导融合模块利用一个门控机制,根据几何信息的重要性自适应地调整几何tokens的权重,从而在需要几何信息的区域放大几何tokens的贡献。整体流程是,输入图像和对应的几何信息,经过视觉编码器和几何编码器提取特征,然后通过几何释放掩码处理视觉特征,再通过几何引导融合将视觉特征和几何特征融合,最后进行空间推理任务。

关键创新:GeoSR的关键创新在于其显式地干预了模型的训练过程,通过掩码和门控机制,强制模型更多地关注和利用几何信息。与以往简单地将几何信息融入模型的方法不同,GeoSR主动地引导模型学习如何更好地利用几何信息进行空间推理。

关键设计:几何释放掩码的具体实现是随机选择一定比例的2D视觉tokens进行mask。几何引导融合使用一个门控网络来计算几何tokens的权重,该门控网络的输入是几何tokens本身,输出是每个几何token对应的权重。损失函数采用标准的交叉熵损失函数,用于监督空间推理任务的预测结果。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

GeoSR在多个静态和动态空间推理基准测试中取得了显著的性能提升,超越了现有方法。例如,在某个基准测试中,GeoSR的准确率比最佳基线提高了5%以上,证明了其有效利用几何信息进行空间推理的能力。实验结果表明,几何释放掩码和几何引导融合是提升模型性能的关键因素。

🎯 应用场景

GeoSR框架在机器人导航、自动驾驶、场景理解等领域具有广泛的应用前景。通过提升模型对空间关系的理解能力,可以帮助机器人更好地感知周围环境,从而实现更安全、更智能的导航和决策。此外,该技术还可以应用于增强现实和虚拟现实等领域,提供更逼真的空间体验。

📄 摘要(原文)

Empowered by large-scale training, vision-language models (VLMs) achieve strong image and video understanding, yet their ability to perform spatial reasoning in both static scenes and dynamic videos remains limited. Recent advances try to handle this limitation by injecting geometry tokens from pretrained 3D foundation models into VLMs. Nevertheless, we observe that naive token fusion followed by standard fine-tuning in this line of work often leaves such geometric cues underutilized for spatial reasoning, as VLMs tend to rely heavily on 2D visual cues. In this paper, we propose GeoSR, a framework designed to make geometry matter by encouraging VLMs to actively reason with geometry tokens. GeoSR introduces two key components: (1) Geometry-Unleashing Masking, which strategically masks portions of 2D vision tokens during training to weaken non-geometric shortcuts and force the model to consult geometry tokens for spatial reasoning; and (2) Geometry-Guided Fusion, a gated routing mechanism that adaptively amplifies geometry token contributions in regions where geometric evidence is critical. Together, these designs unleash the potential of geometry tokens for spatial reasoning tasks. Extensive experiments on both static and dynamic spatial reasoning benchmarks demonstrate that GeoSR consistently outperforms prior methods and establishes new state-of-the-art performance by effectively leveraging geometric information. The project page is available at https://suhzhang.github.io/GeoSR/.