Active Exploring like a Pigeon: Reinforcing Spatial Reasoning via Agentic Vision-Language Models

📄 arXiv: 2606.02459v1 📥 PDF

作者: Wei Deng, Xianlin Zhang, Mengshi Qi

分类: cs.CV

发布日期: 2026-06-01

备注: Accepted by ICML 2026

🔗 代码/项目: GITHUB


💡 一句话要点

提出动态认知地图与空间断言代码以增强空间推理能力

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱七:动作重定向 (Motion Retargeting)

关键词: 空间推理 视觉-语言模型 动态认知地图 空间断言代码 强化学习 智能机器人 自动驾驶

📋 核心要点

  1. 现有视觉-语言模型在空间推理方面表现不足,且大多数方法将其视为被动观察者,难以适应复杂的现实应用。
  2. 本文提出了一种新的主动空间推理管道,利用动态认知地图和空间断言代码,增强模型的空间推理能力和记忆能力。
  3. 在MindCube基准测试中,模型的整体准确率达到80.5%,在Rotation子集上比最佳现有方法提高了29.5个百分点,显示出显著的性能提升。

📝 摘要(中文)

使视觉-语言模型(VLMs)进行空间推理仍然面临挑战。现有方法将VLMs视为被动观察者,难以应用于现实场景。此外,强化学习方法依赖稀疏奖励,限制了其在复杂推理任务中的有效性。受鸽子利用认知地图进行导航的启发,本文提出了一种新的主动空间推理管道。首先,引入了动态认知地图,参数化场景布局为物体位置和方向,作为持久记忆。其次,提出了空间断言代码(SAC),以Python表达式程序化描述空间关系。通过与动态认知地图协作,SAC能够验证中间推理步骤,提供密集奖励信号。实验结果表明,在MindCube基准测试中,模型整体准确率达到80.5%,在具有挑战性的Rotation子集上比当前最佳方法提高了29.5个百分点,提升幅度为53.2%。

🔬 方法详解

问题定义:本文旨在解决视觉-语言模型在空间推理中的不足,现有方法多为被动观察,难以有效处理复杂场景的推理任务。

核心思路:提出动态认知地图作为持久记忆,结合空间断言代码(SAC)来描述和验证空间关系,从而增强模型的推理能力和奖励信号的密度。

技术框架:整体架构包括动态认知地图模块和空间断言代码模块。动态认知地图用于存储场景信息,SAC则用于描述空间关系并提供推理验证。

关键创新:动态认知地图和空间断言代码的结合是本文的核心创新,能够有效地提供中间推理步骤的验证,与传统方法相比,显著提高了推理的准确性和效率。

关键设计:动态认知地图通过物体位置和方向参数化场景布局,SAC使用Python表达式来描述空间关系,模型通过监督和强化学习进行优化,确保了推理过程的高效性和准确性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,模型在MindCube基准测试中的整体准确率达到80.5%,在Rotation子集上比当前最佳方法提高了29.5个百分点,相对提升幅度为53.2%,展现出显著的性能优势。

🎯 应用场景

该研究的潜在应用领域包括智能机器人、自动驾驶、增强现实等,需要进行复杂空间推理的场景。通过增强视觉-语言模型的空间推理能力,可以提升这些系统在真实世界中的表现和适应性,具有重要的实际价值和未来影响。

📄 摘要(原文)

Enabling Vision-Language Models (VLMs) to perform spatial reasoning remains challenging. Existing approaches treat VLMs as passive observers, which is difficult for real-world applications. Moreover, reinforcement learning methods rely on sparse rewards, limiting their effectiveness for complex reasoning tasks. Inspired by pigeons' building and exploiting cognitive maps for navigation, we propose a novel agentic pipeline for spatial reasoning. First, we introduce a new \emph{dynamic cognitive map} parameterizing scene layout as object positions and orientations, serving as persistent memory for new observations. Second, we propose a novel \emph{Spatial Assertion Codes (SAC)}, Python expressions programmatically describing spatial relationships. By collaborating with the dynamic cognitive map, SAC enables verification of intermediate reasoning steps, providing dense reward signals. We optimize the model via supervised and reinforcement finetuning. Experiments on the MindCube benchmark demonstrate state-of-the-art performance with \emph{80.5\%} overall accuracy, outperforming the best current method by \emph{29.5} accuracy points (a relative improvement of \emph{53.2\%}) on the challenging \textsc{Rotation} subset. Our code and data are open-sourced at https://github.com/dw-dengwei/active-spatial-reasoning.git.