MultihopSpatial: Multi-hop Compositional Spatial Reasoning Benchmark for Vision-Language Model

📄 arXiv: 2603.18892v1 📥 PDF

作者: Youngwan Lee, Soojin Jang, Yoorhim Cho, Seunghwan Lee, Yong-Ju Lee, Sung Ju Hwang

分类: cs.CV, cs.AI

发布日期: 2026-03-19

备注: Project page: https://youngwanlee.github.io/multihopspatial


💡 一句话要点

提出MultihopSpatial基准,用于评估视觉语言模型在多跳组合空间推理中的能力,并应用于视觉语言动作智能体。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 空间推理 多跳推理 组合推理 视觉定位 基准数据集 强化学习

📋 核心要点

  1. 现有视觉语言模型在空间推理方面存在不足,尤其是在处理需要多步推理和组合关系的复杂场景时。
  2. MultihopSpatial基准通过构建包含多跳空间关系的查询,并结合新的评估指标Acc@50IoU,来更全面地评估模型的空间推理能力。
  3. 实验表明,现有VLM在MultihopSpatial基准上表现不佳,但通过在MultihopSpatial-Train语料库上进行强化学习后训练,可以显著提升模型性能。

📝 摘要(中文)

空间推理是视觉语言模型(VLM)的基础,尤其是在物理环境中作为视觉语言动作(VLA)智能体部署时。然而,现有的基准主要关注基本的单跳关系,忽略了真实场景所需的多跳组合推理和精确的视觉定位。为了解决这个问题,我们引入了MultihopSpatial,它有三个关键贡献:(1)一个为多跳和组合空间推理设计的综合基准,包含跨不同空间视角的1到3跳复杂查询。(2)Acc@50IoU,一个互补的指标,通过要求同时进行答案选择和精确的边界框预测来评估推理和视觉定位,这对于鲁棒的VLA部署至关重要。(3)MultihopSpatial-Train,一个专门的大规模训练语料库,用于培养空间智能。对37个最先进的VLM的广泛评估产生了八个关键见解,揭示了组合空间推理仍然是一个巨大的挑战。最后,我们证明了在我们语料库上进行强化学习后训练可以提高VLM的内在空间推理能力和下游具身操作性能。

🔬 方法详解

问题定义:论文旨在解决视觉语言模型在复杂空间推理任务中的不足,现有方法主要集中在单跳关系推理,无法有效处理真实场景中需要多步推理和组合关系的复杂查询。现有方法的痛点在于缺乏能够全面评估模型多跳空间推理能力的基准和训练数据。

核心思路:论文的核心思路是构建一个更具挑战性的基准数据集MultihopSpatial,该数据集包含多跳(1-3跳)和组合的空间关系查询,同时提出一个新的评估指标Acc@50IoU,该指标同时评估模型的推理能力和视觉定位精度。此外,论文还构建了一个大规模的训练语料库MultihopSpatial-Train,用于提升模型的空间推理能力。

技术框架:MultihopSpatial基准包含三个主要组成部分:1) 多跳空间关系查询,这些查询需要模型进行多步推理才能找到答案;2) Acc@50IoU评估指标,该指标要求模型不仅要选择正确的答案,还要预测答案的精确边界框;3) MultihopSpatial-Train训练语料库,用于训练模型提升空间推理能力。整体流程是:首先,使用MultihopSpatial-Train训练VLM模型;然后,使用MultihopSpatial基准评估模型的空间推理能力,使用Acc@50IoU作为评估指标。

关键创新:论文的主要创新点在于:1) 提出了一个更具挑战性的多跳组合空间推理基准MultihopSpatial,更贴近真实场景;2) 提出了Acc@50IoU评估指标,该指标同时评估推理能力和视觉定位精度,更加全面;3) 构建了大规模的训练语料库MultihopSpatial-Train,为模型训练提供了充足的数据。

关键设计:MultihopSpatial基准包含1到3跳的空间关系查询,涵盖了多种空间视角。Acc@50IoU指标的计算方式是:只有当模型选择的答案正确,并且预测的边界框与真实边界框的IoU大于50%时,才认为预测正确。MultihopSpatial-Train训练语料库包含大量的图像和对应的多跳空间关系查询,用于训练VLM模型。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文对37个最先进的VLM进行了广泛评估,结果表明,现有模型在MultihopSpatial基准上表现不佳,表明组合空间推理仍然是一个巨大的挑战。然而,通过在MultihopSpatial-Train语料库上进行强化学习后训练,VLM的内在空间推理能力和下游具身操作性能得到了显著提升,证明了该基准和训练语料库的有效性。

🎯 应用场景

该研究成果可应用于视觉语言动作智能体(VLA),例如机器人导航、物体操作等任务。通过提升VLM在多跳空间推理方面的能力,可以使VLA智能体更好地理解和执行复杂的指令,从而在真实物理环境中实现更智能的行为。此外,该研究也有助于提升VLM在图像理解、问答等方面的性能。

📄 摘要(原文)

Spatial reasoning is foundational for Vision-Language Models (VLMs), particularly when deployed as Vision-Language-Action (VLA) agents in physical environments. However, existing benchmarks predominantly focus on elementary, single-hop relations, neglecting the multi-hop compositional reasoning and precise visual grounding essential for real-world scenarios. To address this, we introduce MultihopSpatial, offering three key contributions: (1) A comprehensive benchmark designed for multi-hop and compositional spatial reasoning, featuring 1- to 3-hop complex queries across diverse spatial perspectives. (2) Acc@50IoU, a complementary metric that simultaneously evaluates reasoning and visual grounding by requiring both answer selection and precise bounding box prediction - capabilities vital for robust VLA deployment. (3) MultihopSpatial-Train, a dedicated large-scale training corpus to foster spatial intelligence. Extensive evaluation of 37 state-of-the-art VLMs yields eight key insights, revealing that compositional spatial reasoning remains a formidable challenge. Finally, we demonstrate that reinforcement learning post-training on our corpus enhances both intrinsic VLM spatial reasoning and downstream embodied manipulation performance.