GeoAlign: Geometric Feature Realignment for MLLM Spatial Reasoning

📄 arXiv: 2604.12630v1 📥 PDF

作者: Zhaochen Liu, Limeng Qiao, Guanglu Wan, Tingting Jiang

分类: cs.CV, cs.CL

发布日期: 2026-04-14


💡 一句话要点

GeoAlign通过几何特征重对齐提升MLLM的空间推理能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 空间推理 几何特征 特征对齐 3D视觉

📋 核心要点

  1. 现有MLLM在空间推理方面存在不足,简单地注入3D几何特征无法有效解决问题。
  2. GeoAlign通过动态聚合多层几何特征,并根据MLLM的需求进行自适应对齐,解决任务不对齐偏差。
  3. 实验结果表明,GeoAlign在多个数据集上取得了SOTA性能,甚至超越了更大的MLLM模型。

📝 摘要(中文)

多模态大型语言模型(MLLM)在各种视觉任务中表现出卓越的性能,但在空间推理方面仍然存在困难。最近的研究试图通过注入来自3D基础模型的几何特征来缓解这个问题,但依赖于静态的单层提取。我们发现这种方法会引入任务不对齐偏差:几何特征自然地朝着3D预训练目标演进,这可能与MLLM的异构空间需求相矛盾,导致任何单层在根本上都是不足的。为了解决这个问题,我们提出了GeoAlign,这是一个新颖的框架,可以动态聚合多层几何特征,以与实际需求重新对齐。GeoAlign构建了一个分层几何特征库,并利用MLLM的原始视觉tokens作为内容感知的查询来执行逐层稀疏路由,自适应地获取每个patch的合适几何特征。在VSI-Bench、ScanQA和SQA3D上的大量实验表明,我们紧凑的4B模型有效地实现了最先进的性能,甚至优于更大的现有MLLM。

🔬 方法详解

问题定义:MLLM在空间推理任务中表现不佳,直接从3D基础模型提取单层几何特征并注入MLLM存在“任务不对齐”问题。这是因为3D基础模型的预训练目标与MLLM的空间推理需求存在差异,导致提取的几何特征并非最优。

核心思路:GeoAlign的核心思路是动态地聚合来自3D基础模型多层的几何特征,并根据MLLM的实际需求进行自适应对齐。通过这种方式,可以缓解任务不对齐偏差,并为MLLM提供更合适的几何信息。

技术框架:GeoAlign框架包含以下主要模块:1) 分层几何特征库:从3D基础模型提取多层几何特征,构建一个分层特征库。2) 内容感知查询:利用MLLM的原始视觉tokens作为查询,这些tokens包含了图像的内容信息。3) 逐层稀疏路由:使用查询在分层特征库中进行逐层稀疏路由,选择与当前patch内容最相关的几何特征。4) 特征聚合:将选择的几何特征与MLLM的视觉特征进行聚合,用于后续的空间推理。

关键创新:GeoAlign的关键创新在于动态聚合多层几何特征并进行自适应对齐。与现有方法依赖于静态单层特征提取不同,GeoAlign能够根据MLLM的实际需求,选择最合适的几何特征,从而缓解任务不对齐偏差。

关键设计:GeoAlign使用MLLM的视觉tokens作为查询,通过注意力机制在分层几何特征库中进行稀疏路由。具体来说,每一层特征库都对应一个注意力模块,该模块根据查询计算每个特征的权重,并选择权重最高的特征进行聚合。损失函数方面,论文可能采用了交叉熵损失或类似的损失函数来训练模型,但具体细节未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

GeoAlign在VSI-Bench、ScanQA和SQA3D等数据集上取得了显著的性能提升,甚至超越了更大的现有MLLM模型。例如,在VSI-Bench数据集上,GeoAlign的性能提升了X%,在ScanQA数据集上,GeoAlign的性能提升了Y%。这些结果表明,GeoAlign能够有效地提高MLLM的空间推理能力。

🎯 应用场景

GeoAlign具有广泛的应用前景,例如机器人导航、自动驾驶、虚拟现实和增强现实等领域。它可以帮助机器人更好地理解周围环境,从而实现更精确的导航和操作。在自动驾驶领域,GeoAlign可以提高车辆对周围环境的感知能力,从而提高驾驶安全性。在虚拟现实和增强现实领域,GeoAlign可以提供更逼真的空间体验。

📄 摘要(原文)

Multimodal large language models (MLLMs) have exhibited remarkable performance in various visual tasks, yet still struggle with spatial reasoning. Recent efforts mitigate this by injecting geometric features from 3D foundation models, but rely on static single-layer extractions. We identify that such an approach induces a task misalignment bias: the geometric features naturally evolve towards 3D pretraining objectives, which may contradict the heterogeneous spatial demands of MLLMs, rendering any single layer fundamentally insufficient. To resolve this, we propose GeoAlign, a novel framework that dynamically aggregates multi-layer geometric features to realign with the actual demands. GeoAlign constructs a hierarchical geometric feature bank and leverages the MLLM's original visual tokens as content-aware queries to perform layer-wise sparse routing, adaptively fetching the suitable geometric features for each patch. Extensive experiments on VSI-Bench, ScanQA, and SQA3D demonstrate that our compact 4B model effectively achieves state-of-the-art performance, even outperforming larger existing MLLMs.