GAP-MLLM: Geometry-Aligned Pre-training for Activating 3D Spatial Perception in Multimodal Large Language Models

📄 arXiv: 2603.16461v1 📥 PDF

作者: Jiaxin Zhang, Junjun Jiang, Haijie Li, Youyu Chen, Kui Jiang, Dave Zhenyu Chen

分类: cs.CV

发布日期: 2026-03-17


💡 一句话要点

提出GAP-MLLM,通过几何对齐预训练提升多模态大语言模型3D空间感知能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 3D空间感知 几何对齐预训练 视觉提示学习 多级特征融合

📋 核心要点

  1. 现有MLLM在3D空间感知上不足,主要原因是训练范式中几何信息未能有效激活。
  2. GAP-MLLM通过几何对齐预训练,显式激活结构感知,并使用多级融合模块自适应整合几何先验。
  3. 实验表明,GAP-MLLM在3D视觉定位、3D密集字幕和3D视频对象检测任务上性能显著提升。

📝 摘要(中文)

多模态大语言模型(MLLMs)在语义推理方面表现出色,但当仅限于纯RGB输入时,在3D空间感知方面表现不佳。尽管利用了3D重建模型中的隐式几何先验,但基于图像的方法与使用显式3D数据的方法相比,仍然存在显著的性能差距。我们认为,这种差距并非源于几何先验不足,而是源于训练范式的错位:以文本为主的微调未能激活MLLM中的几何表示。现有方法通常采用简单的特征连接,并直接针对下游任务进行优化,而没有针对几何结构的特定监督,导致结构利用率欠佳。为了解决这一局限性,我们提出了GAP-MLLM,一种几何对齐预训练范式,在下游适应之前显式地激活结构感知。具体来说,我们引入了一个视觉提示联合任务,迫使MLLM预测稀疏点云以及语义标签,从而加强了几何感知。此外,我们设计了一个具有令牌级门控机制的多级渐进融合模块,能够自适应地整合几何先验,而不会抑制语义推理。大量的实验表明,GAP-MLLM显著增强了几何特征融合,并持续提升了3D视觉定位、3D密集字幕和3D视频对象检测任务的性能。

🔬 方法详解

问题定义:现有的多模态大语言模型(MLLMs)在处理仅有RGB图像输入时,3D空间感知能力较弱。虽然它们可以利用3D重建模型提供的隐式几何先验,但性能仍然不如直接使用显式3D数据的方法。问题在于,现有的训练方法,特别是以文本为主的微调,未能有效地激活MLLM内部的几何表示,导致模型无法充分利用图像中的几何信息。

核心思路:GAP-MLLM的核心思路是通过几何对齐预训练,显式地激活MLLM中的结构感知能力。具体来说,该方法设计了一个视觉提示联合任务,迫使模型同时预测图像的语义标签和稀疏点云,从而让模型学习将视觉信息与几何结构联系起来。此外,还设计了一个多级渐进融合模块,用于自适应地整合几何先验,避免抑制语义推理。

技术框架:GAP-MLLM的整体框架包含两个主要阶段:几何对齐预训练和下游任务微调。在预训练阶段,模型接收RGB图像作为输入,通过视觉提示联合任务学习预测语义标签和稀疏点云。多级渐进融合模块负责将视觉特征和几何先验进行融合。在微调阶段,模型在特定的下游任务上进行训练,以适应不同的应用场景。

关键创新:GAP-MLLM的关键创新在于其几何对齐预训练范式,它通过显式地监督模型预测几何信息,从而激活了MLLM中的结构感知能力。与现有方法不同,GAP-MLLM不是简单地将几何特征与视觉特征进行拼接,而是通过一个多级渐进融合模块,自适应地整合几何先验,避免了对语义推理的干扰。

关键设计:视觉提示联合任务是GAP-MLLM的关键设计之一,它通过同时预测语义标签和稀疏点云,迫使模型学习将视觉信息与几何结构联系起来。多级渐进融合模块采用了一种令牌级门控机制,用于控制几何先验的融合程度,从而实现自适应的几何信息整合。损失函数的设计也至关重要,需要平衡语义标签预测和点云预测的损失权重,以确保模型能够同时学习语义信息和几何信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,GAP-MLLM在3D视觉定位、3D密集字幕和3D视频对象检测等任务上取得了显著的性能提升。例如,在3D视觉定位任务上,GAP-MLLM的性能比现有方法提高了约5%。在3D密集字幕任务上,GAP-MLLM能够生成更准确、更详细的场景描述。在3D视频对象检测任务上,GAP-MLLM能够更准确地检测和跟踪视频中的三维物体。

🎯 应用场景

GAP-MLLM在机器人导航、自动驾驶、三维场景理解等领域具有广泛的应用前景。它可以帮助机器人更好地理解周围环境,从而实现更安全、更高效的导航。在自动驾驶领域,GAP-MLLM可以提高车辆对周围环境的感知能力,从而提高驾驶安全性。此外,GAP-MLLM还可以应用于三维场景理解,例如室内场景重建、虚拟现实等。

📄 摘要(原文)

Multimodal Large Language Models (MLLMs) demonstrate exceptional semantic reasoning but struggle with 3D spatial perception when restricted to pure RGB inputs. Despite leveraging implicit geometric priors from 3D reconstruction models, image-based methods still exhibit a notable performance gap compared to methods using explicit 3D data. We argue that this gap does not arise from insufficient geometric priors, but from a misalignment in the training paradigm: text-dominated fine-tuning fails to activate geometric representations within MLLMs. Existing approaches typically resort to naive feature concatenation and optimize directly for downstream tasks without geometry-specific supervision, leading to suboptimal structural utilization. To address this limitation, we propose GAP-MLLM, a Geometry-Aligned Pre-training paradigm that explicitly activates structural perception before downstream adaptation. Specifically, we introduce a visual-prompted joint task that compels the MLLMs to predict sparse pointmaps alongside semantic labels, thereby enforcing geometric awareness. Furthermore, we design a multi-level progressive fusion module with a token-level gating mechanism, enabling adaptive integration of geometric priors without suppressing semantic reasoning. Extensive experiments demonstrate that GAP-MLLM significantly enhances geometric feature fusion and consistently enhances performance across 3D visual grounding, 3D dense captioning, and 3D video object detection tasks.