Thinking with Geometry: Active Geometry Integration for Spatial Reasoning
作者: Haoyuan Li, Qihang Cao, Tao Tang, Kun Xiang, Zihan Guo, Jianhua Han, Hang Xu, Xiaodan Liang
分类: cs.CV
发布日期: 2026-02-05
🔗 代码/项目: GITHUB
💡 一句话要点
GeoThinker:通过主动几何集成增强多模态大语言模型中的空间推理能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 空间推理 多模态大语言模型 几何信息融合 主动感知 交叉注意力
📋 核心要点
- 现有方法被动融合几何信息,易导致语义与几何信息不对齐,产生冗余信号。
- GeoThinker通过主动感知,使模型根据推理需求选择性地检索几何证据。
- 实验表明,GeoThinker在VSI-Bench上达到72.6分,并在下游任务中表现出强大的泛化能力。
📝 摘要(中文)
本文提出了一种名为GeoThinker的框架,旨在改进多模态大语言模型(MLLMs)在空间推理方面的能力。现有方法通常被动地融合来自3D编码器的几何先验,导致语义-几何不对齐和冗余信号。GeoThinker将范式从被动融合转变为主动感知,允许模型根据其内部推理需求选择性地检索几何证据。该框架通过在精心挑选的VLM层应用空间对齐融合来实现这一点,其中语义视觉先验通过帧严格交叉注意力选择性地查询和集成任务相关的几何信息,并通过重要性门控进一步校准,使每帧注意力偏向于任务相关的结构。综合评估结果表明,GeoThinker在空间智能方面达到了新的SOTA,在VSI-Bench上取得了72.6的峰值分数。此外,GeoThinker在复杂的下游场景中表现出强大的泛化能力和显著改进的空间感知能力,包括具身指代和自动驾驶。结果表明,主动集成空间结构的能力对于下一代空间智能至关重要。
🔬 方法详解
问题定义:现有的多模态大语言模型在进行空间推理时,通常采用被动的方式融合来自3D编码器的几何先验信息。这种被动融合策略存在两个主要问题:一是容易导致语义信息和几何信息的不对齐,二是会引入冗余的信号,从而影响模型的推理性能。因此,如何有效地利用几何信息来提升多模态大语言模型的空间推理能力是一个重要的研究问题。
核心思路:GeoThinker的核心思路是将几何信息的融合方式从被动转变为主动。具体来说,GeoThinker允许模型根据其内部的推理需求,选择性地检索和集成相关的几何证据。这种主动感知的方式可以避免不必要的几何信息干扰,从而提高模型的推理精度和效率。
技术框架:GeoThinker的整体框架主要包括以下几个关键模块:首先,利用3D编码器提取场景的几何特征;然后,在视觉语言模型(VLM)的特定层,应用空间对齐融合(Spatial-Grounded Fusion)机制,该机制允许VLM根据其当前的语义理解,选择性地查询和集成相关的几何信息;最后,通过重要性门控(Importance Gating)机制,进一步校准每帧的注意力,使模型更加关注任务相关的结构。
关键创新:GeoThinker最重要的技术创新点在于其主动几何集成策略。与现有方法被动地融合所有几何信息不同,GeoThinker允许模型根据其内部的推理需求,选择性地检索和集成相关的几何证据。这种主动感知的方式可以有效地避免语义-几何不对齐和冗余信号的问题。
关键设计:在空间对齐融合模块中,采用了帧严格交叉注意力机制,确保几何信息与视觉信息的精确对齐。重要性门控模块则通过学习一个权重,来控制每帧几何信息对最终推理结果的贡献程度。此外,论文还仔细选择了VLM中进行几何信息融合的层,以确保几何信息能够有效地融入到模型的推理过程中。
📊 实验亮点
GeoThinker在VSI-Bench空间推理基准测试中取得了显著的成果,达到了72.6的峰值分数,超越了现有的SOTA方法。此外,GeoThinker在具身指代和自动驾驶等下游任务中也表现出强大的泛化能力和显著改进的空间感知能力,证明了其有效性和实用性。
🎯 应用场景
GeoThinker的研究成果可以广泛应用于需要空间推理能力的领域,例如机器人导航、自动驾驶、增强现实和虚拟现实等。通过提升模型对空间信息的理解和利用能力,可以提高这些应用场景的智能化水平和用户体验。未来,该研究还可以扩展到其他模态的数据融合,例如声音和触觉等,从而构建更加全面的感知系统。
📄 摘要(原文)
Recent progress in spatial reasoning with Multimodal Large Language Models (MLLMs) increasingly leverages geometric priors from 3D encoders. However, most existing integration strategies remain passive: geometry is exposed as a global stream and fused in an indiscriminate manner, which often induces semantic-geometry misalignment and redundant signals. We propose GeoThinker, a framework that shifts the paradigm from passive fusion to active perception. Instead of feature mixing, GeoThinker enables the model to selectively retrieve geometric evidence conditioned on its internal reasoning demands. GeoThinker achieves this through Spatial-Grounded Fusion applied at carefully selected VLM layers, where semantic visual priors selectively query and integrate task-relevant geometry via frame-strict cross-attention, further calibrated by Importance Gating that biases per-frame attention toward task-relevant structures. Comprehensive evaluation results show that GeoThinker sets a new state-of-the-art in spatial intelligence, achieving a peak score of 72.6 on the VSI-Bench. Furthermore, GeoThinker demonstrates robust generalization and significantly improved spatial perception across complex downstream scenarios, including embodied referring and autonomous driving. Our results indicate that the ability to actively integrate spatial structures is essential for next-generation spatial intelligence. Code can be found at https://github.com/Li-Hao-yuan/GeoThinker.