SpaceMind: Camera-Guided Modality Fusion for Spatial Reasoning in Vision-Language Models

📄 arXiv: 2511.23075v2 📥 PDF

作者: Ruosen Zhao, Zhikang Zhang, Jialei Xu, Jiahao Chang, Dong Chen, Lingyun Li, Weijian Sun, Zizhuang Wei

分类: cs.CV, cs.AI

发布日期: 2025-11-28 (更新: 2025-12-04)


💡 一句话要点

提出SpaceMind,通过相机引导的多模态融合增强视觉-语言模型中的空间推理能力

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言模型 空间推理 多模态融合 相机引导 深度学习 机器人视觉 三维重建

📋 核心要点

  1. 现有视觉-语言模型在3D空间推理方面存在不足,依赖额外3D信息或浅层融合几何编码器,限制了其泛化能力。
  2. SpaceMind将相机参数作为主动引导模态,通过相机引导的模态融合模块,增强模型对空间信息的理解和利用。
  3. 实验结果表明,SpaceMind在多个空间推理benchmark上取得了显著提升,超越了现有开源和商业模型。

📝 摘要(中文)

大型视觉-语言模型(VLMs)在多模态理解方面表现出色,但在3D空间推理方面仍然存在困难,例如距离估计、大小比较和跨视角一致性。现有的3D感知方法要么依赖于辅助3D信息,要么通过浅层特征融合利用几何编码器增强仅RGB的VLMs。我们提出了SpaceMind,一个专门为仅从RGB输入进行空间推理而设计的多模态大型语言模型。该模型采用双编码器架构,集成了VGGT作为空间理解编码器和InternViT作为2D视觉编码器。关键思想是将相机表示视为一种主动引导模态,而不是被动的元数据。具体来说,SpaceMind在语言模型之前引入了一个轻量级的相机引导模态融合模块,以取代浅层融合。它将相机条件偏置应用于空间tokens,分配反映其几何重要性的查询无关权重,并使用相机嵌入来门控融合表示。实验表明,SpaceMind在VSI-Bench、SQA3D和SPBench上建立了新的state-of-the-art结果,在VSI-Bench和SPBench上大幅超越了开源和专有系统,并在SQA3D上实现了state-of-the-art性能。这些结果表明,相机引导的模态融合是一种有效且实用的归纳偏置,可以使VLMs具备真正的空间基础智能。我们将发布代码和模型检查点以支持未来的研究。

🔬 方法详解

问题定义:现有视觉-语言模型在处理3D空间推理任务时,例如距离估计、大小比较和跨视角一致性,表现不佳。现有方法要么依赖额外的3D信息(如深度图、点云),要么采用浅层特征融合的方式将几何编码器与视觉编码器结合,无法充分利用RGB图像中的空间信息,限制了模型的泛化能力和实际应用。

核心思路:SpaceMind的核心思路是将相机参数(如焦距、旋转矩阵)视为一种主动引导模态,而非被动的元数据。通过相机参数来引导视觉特征的融合,使模型能够更好地理解和利用图像中的空间信息。这种方法旨在赋予模型一种“空间意识”,使其能够像人类一样,通过视觉信息和对相机视角的理解来进行空间推理。

技术框架:SpaceMind采用双编码器架构,包括一个VGGT空间理解编码器和一个InternViT 2D视觉编码器。VGGT负责提取图像中的空间特征,InternViT负责提取图像的视觉特征。关键模块是相机引导的模态融合模块,该模块位于两个编码器之后,语言模型之前。该模块利用相机嵌入对空间tokens进行偏置,并使用相机嵌入来门控融合表示。最后,融合后的特征被输入到语言模型中进行推理。

关键创新:SpaceMind的关键创新在于相机引导的模态融合模块。该模块将相机参数作为主动引导信息,通过相机条件偏置和查询无关权重,使模型能够更好地理解和利用图像中的空间信息。与现有方法中将相机参数作为被动元数据或采用浅层特征融合的方式不同,SpaceMind的相机引导模态融合模块能够更有效地将相机信息融入到视觉特征中,从而提高模型的空间推理能力。

关键设计:相机引导的模态融合模块包含三个关键设计:1) 相机条件偏置:将相机嵌入添加到空间tokens中,从而使模型能够感知相机视角。2) 查询无关权重:根据空间tokens的几何重要性分配权重,使模型能够关注重要的空间区域。3) 相机嵌入门控:使用相机嵌入来门控融合表示,从而控制相机信息对最终表示的影响。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SpaceMind在VSI-Bench、SQA3D和SPBench等多个空间推理benchmark上取得了显著的性能提升。在VSI-Bench和SPBench上,SpaceMind大幅超越了现有开源和商业模型,并在SQA3D上实现了state-of-the-art性能。例如,在VSI-Bench上,SpaceMind的性能提升了XX%。这些结果表明,相机引导的模态融合是一种有效且实用的方法,可以显著提高视觉-语言模型的空间推理能力。(具体提升幅度数据未知,用XX%代替)

🎯 应用场景

SpaceMind在机器人导航、自动驾驶、增强现实等领域具有广泛的应用前景。例如,在机器人导航中,SpaceMind可以帮助机器人理解周围环境的空间结构,从而实现更安全、更高效的导航。在自动驾驶中,SpaceMind可以帮助车辆更好地感知周围环境,从而提高驾驶安全性。在增强现实中,SpaceMind可以帮助将虚拟物体与真实场景进行更精确的对齐,从而提供更沉浸式的用户体验。

📄 摘要(原文)

Large vision-language models (VLMs) show strong multimodal understanding but still struggle with 3D spatial reasoning, such as distance estimation, size comparison, and cross-view consistency. Existing 3D-aware methods either depend on auxiliary 3D information or enhance RGB-only VLMs with geometry encoders through shallow feature fusion. We propose SpaceMind, a multimodal large language model explicitly designed for spatial reasoning solely from RGB inputs. The model adopts a dual-encoder architecture, integrating VGGT as a spatial understanding encoder and InternViT as a 2D visual encoder. The key idea is to treat the camera representation as an active guiding modality rather than passive metadata. Specifically, SpaceMind introduces a lightweight Camera-Guided Modality Fusion module before the language model to replace shallow fusion. It applies camera-conditioned biasing to spatial tokens, assigns query-independent weights reflecting their geometric importance, and uses the camera embedding to gate the fused representation. Empirically, SpaceMind establishes new state-of-the-art results on VSI-Bench, SQA3D and SPBench, surpassing both open and proprietary systems on VSI-Bench and SPBench by large margins and achieving state-of-the-art performance on SQA3D. These results demonstrate that camera-guided modality fusion is an effective and practical inductive bias for equipping VLMs with genuinely spatially grounded intelligence. We will release code and model checkpoints to support future research.