Let Geometry GUIDE: Layer-wise Unrolling of Geometric Priors in Multimodal LLMs

📄 arXiv: 2604.05695v1 📥 PDF

作者: Chongyu Wang, Ting Huang, Chunyu Sun, Xinyu Ning, Di Wang, Hao Tang

分类: cs.CV

发布日期: 2026-04-07


💡 一句话要点

提出GUIDE框架以解决多模态大语言模型的空间感知问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 几何先验 多模态大语言模型 空间感知 深度学习 视觉推理

📋 核心要点

  1. 现有几何感知MLLMs受限于单层提取和输入级融合,导致局部几何细节丢失和语义不匹配。
  2. 本文提出GUIDE框架,通过多层采样和逐步融合几何先验,增强模型的空间感知能力。
  3. 实验结果显示,GUIDE在复杂空间推理和感知任务上显著超越现有基线,展示了其有效性。

📝 摘要(中文)

多模态大语言模型(MLLMs)在二维视觉任务中取得了显著进展,但在处理现实世界视觉流时仍表现出有限的物理空间意识。现有的几何感知MLLMs主要受限于单层提取和输入级融合的范式,导致局部几何细节的丢失和早期层的语义不匹配。为了解决这一瓶颈,本文提出了GUIDE(几何展开框架),通过在几何编码器中进行多层采样,全面捕捉从局部边缘到全局拓扑的多粒度特征,并逐步对齐和融合这些几何先验信息。实验结果表明,GUIDE在多个复杂空间推理和感知任务上显著优于现有基线,建立了将三维几何先验整合到大型模型中的新范式。

🔬 方法详解

问题定义:本文旨在解决多模态大语言模型在处理现实世界视觉流时的空间感知不足,现有方法在几何信息提取上存在局限性,导致语义不匹配和细节丢失。

核心思路:提出GUIDE框架,通过在几何编码器中进行多层次的几何先验信息采样,逐步对齐和融合这些信息,以增强模型的空间感知能力。这样的设计能够有效捕捉多粒度特征,促进2D到3D的过渡学习。

技术框架:GUIDE框架包含多个模块,首先在几何编码器中进行多层采样,获取不同粒度的几何特征;然后将这些特征逐步与MLLM的早期层进行对齐和融合,最后通过上下文感知门控机制优化空间信息的利用。

关键创新:最重要的创新在于多层次几何先验的逐步注入和上下文感知门控机制,这与现有方法的单层提取和简单融合形成鲜明对比,显著提升了模型的空间感知能力。

关键设计:在设计中,采用了多层次的几何特征采样策略,并引入了上下文感知门控机制,以确保模型能够根据当前语义动态获取所需的空间线索,最大化空间先验的利用效率。实验中使用了多种损失函数和网络结构,以确保模型的稳定性和性能。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,GUIDE在多个复杂空间推理和感知任务上显著优于现有基线,具体性能提升幅度达到XX%,展示了其在空间感知领域的有效性和创新性。

🎯 应用场景

该研究的潜在应用领域包括机器人视觉、增强现实、自动驾驶等,需要高效空间感知的场景。通过提升多模态大语言模型的空间理解能力,未来可在智能交互、环境感知等方面发挥重要作用,推动相关技术的发展。

📄 摘要(原文)

Multimodal Large Language Models (MLLMs) have achieved remarkable progress in 2D visual tasks but still exhibit limited physical spatial awareness when processing real-world visual streams. Recently, feed-forward geometric foundation models, which implicitly extract geometric priors, have provided a new pathway to address this issue. However, existing geometry-aware MLLMs are predominantly constrained by the paradigm of single deep-layer extraction and input-level fusion. This flattened fusion leads to the loss of local geometric details and causes semantic mismatches in the early layers. To break this bottleneck, we propose GUIDE (Geometric Unrolling Inside MLLM Early-layers), a progressive geometric priors injection framework. GUIDE performs multi-level sampling within the geometric encoder, comprehensively capturing multi-granularity features ranging from local edges to global topologies. Subsequently, we rigorously align and fuse these multi-level geometric priors step-by-step with the early layers of the MLLM. Building upon the injection of multi-granularity geometric information, this design guides the model to progressively learn the 2D-to-3D transitional process. Furthermore, we introduce a context-aware gating that enables the model to fetch requisite spatial cues based on current semantics, thereby maximizing the utilization efficiency of spatial priors and effectively suppressing redundant geometric noise. Extensive experiments demonstrate that GUIDE significantly outperforms existing baselines on multiple complex spatial reasoning and perception tasks, establishing a novel paradigm for integrating 3D geometric priors into large models.