Spatial-MLLM: Boosting MLLM Capabilities in Visual-based Spatial Intelligence
作者: Diankun Wu, Fangfu Liu, Yi-Hsin Hung, Yueqi Duan
分类: cs.CV, cs.AI, cs.LG
发布日期: 2025-05-29
备注: 21 pages
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
Spatial-MLLM:通过视觉几何先验增强MLLM的视觉空间智能
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态大语言模型 空间推理 视觉几何 双编码器 帧采样
📋 核心要点
- 现有3D MLLM依赖额外3D/2.5D数据,限制了其在仅有2D输入场景下的应用,缺乏纯视觉的空间推理能力。
- Spatial-MLLM利用视觉几何基础模型的结构先验,通过双编码器提取语义和3D结构特征,增强空间理解。
- Spatial-MLLM在Spatial-MLLM-120k数据集上训练,并在多个真实数据集上取得了SOTA性能,验证了其有效性。
📝 摘要(中文)
多模态大型语言模型(MLLM)在2D视觉任务上的性能显著提升,但提高其空间智能仍然是一个挑战。现有的3D MLLM通常依赖额外的3D或2.5D数据来融入空间感知,限制了它们在只有2D输入(如图像或视频)场景中的应用。本文提出了Spatial-MLLM,一个用于纯粹基于2D观察进行视觉空间推理的新框架。与依赖于为语义理解优化的基于CLIP的视觉编码器的传统视频MLLM不同,我们的关键见解是释放来自前馈视觉几何基础模型的强大结构先验。具体来说,我们提出了一个双编码器架构:一个预训练的2D视觉编码器提取语义特征,以及一个从视觉几何模型骨干初始化的空间编码器提取3D结构特征。然后,一个连接器将这两个特征集成到统一的视觉token中,以增强空间理解。此外,我们提出了一种空间感知帧采样策略,在推理时选择视频序列中空间信息丰富的帧,确保即使在有限的token长度下,模型也能专注于对空间推理至关重要的帧。除了架构改进之外,我们构建了Spatial-MLLM-120k数据集,并使用监督微调和GRPO对其进行训练。在各种真实世界数据集上的大量实验表明,我们的Spatial-MLLM在各种基于视觉的空间理解和推理任务中实现了最先进的性能。
🔬 方法详解
问题定义:现有MLLM在处理仅有2D视觉输入的空间推理任务时表现不佳,因为它们要么缺乏对3D结构的感知,要么依赖于额外的3D或2.5D数据。这限制了它们在许多实际应用中的适用性,例如仅有图像或视频的场景。现有方法通常侧重于语义理解,而忽略了视觉几何信息的重要性。
核心思路:Spatial-MLLM的核心思路是利用视觉几何基础模型中蕴含的结构先验知识,通过一个专门的空间编码器提取3D结构特征,并将其与语义特征融合,从而增强MLLM的空间推理能力。这种方法避免了对额外3D数据的依赖,使其能够处理纯粹基于2D视觉输入的空间推理任务。
技术框架:Spatial-MLLM采用双编码器架构。首先,使用一个预训练的2D视觉编码器(例如CLIP)提取语义特征。然后,使用一个空间编码器,该编码器从视觉几何模型的骨干网络初始化,用于提取3D结构特征。一个连接器模块将这两个特征融合为统一的视觉token,输入到MLLM中进行后续处理。在推理阶段,采用空间感知帧采样策略,选择包含丰富空间信息的帧,以提高效率。
关键创新:Spatial-MLLM的关键创新在于利用视觉几何先验知识来增强MLLM的空间推理能力。与传统方法不同,它不依赖于额外的3D数据,而是通过一个专门的空间编码器从2D视觉输入中提取3D结构特征。此外,空间感知帧采样策略进一步提高了模型的效率和准确性。
关键设计:空间编码器从视觉几何模型的骨干网络初始化,例如DINOv2或 অনুরূপ模型。连接器模块可以使用简单的线性层或更复杂的注意力机制来融合语义和结构特征。空间感知帧采样策略可以基于帧之间的光流、深度估计或其他空间信息指标来选择信息量最大的帧。损失函数包括监督微调损失和GRPO(未知)损失,用于优化模型的性能。
🖼️ 关键图片
📊 实验亮点
Spatial-MLLM在多个真实世界数据集上取得了SOTA性能,证明了其有效性。具体性能数据和对比基线在论文中详细给出(未知)。通过利用视觉几何先验和空间感知帧采样策略,Spatial-MLLM在空间理解和推理任务上取得了显著的提升。
🎯 应用场景
Spatial-MLLM可应用于机器人导航、自动驾驶、视频监控、增强现实等领域。例如,机器人可以利用该模型理解周围环境的3D结构,从而更好地进行路径规划和物体交互。在自动驾驶中,该模型可以帮助车辆理解道路场景的几何信息,提高驾驶安全性。该研究有望推动视觉空间智能在实际应用中的发展。
📄 摘要(原文)
Recent advancements in Multimodal Large Language Models (MLLMs) have significantly enhanced performance on 2D visual tasks. However, improving their spatial intelligence remains a challenge. Existing 3D MLLMs always rely on additional 3D or 2.5D data to incorporate spatial awareness, restricting their utility in scenarios with only 2D inputs, such as images or videos. In this paper, we present Spatial-MLLM, a novel framework for visual-based spatial reasoning from purely 2D observations. Unlike conventional video MLLMs which rely on CLIP-based visual encoders optimized for semantic understanding, our key insight is to unleash the strong structure prior from the feed-forward visual geometry foundation model. Specifically, we propose a dual-encoder architecture: a pretrained 2D visual encoder to extract semantic features, and a spatial encoder-initialized from the backbone of the visual geometry model-to extract 3D structure features. A connector then integrates both features into unified visual tokens for enhanced spatial understanding. Furthermore, we propose a space-aware frame sampling strategy at inference time, which selects the spatially informative frames of a video sequence, ensuring that even under limited token length, the model focuses on frames critical for spatial reasoning. Beyond architecture improvements, we construct the Spatial-MLLM-120k dataset and train the model on it using supervised fine-tuning and GRPO. Extensive experiments on various real-world datasets demonstrate that our spatial-MLLM achieves state-of-the-art performance in a wide range of visual-based spatial understanding and reasoning tasks. Project page: https://diankun-wu.github.io/Spatial-MLLM/.