AlloSpatial: Agentic Harness Framework for Spatial Reasoning in Foundation Models
作者: Shouwei Ruan, Bin Wang, Zhenyu Wu, Qihui Zhu, Yuxiang Zhang, Jingzhi Li, Yubin Wang, Xingxing Wei
分类: cs.AI
发布日期: 2026-06-08
💡 一句话要点
提出AlloSpatial框架以解决多模态基础模型的空间推理问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱六:视频提取与匹配 (Video Extraction) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 空间推理 多模态基础模型 认知映射 分配中心表示 强化学习 机器人导航 智能交通 增强现实
📋 核心要点
- 现有多模态基础模型在空间推理方面存在脆弱性,无法有效将局部观察转化为全局空间表示。
- 论文提出AlloSpatial框架,通过World2Mind将自我中心观察转换为结构化的分配中心先验,增强空间认知能力。
- 实验结果显示,AlloSpatial在VSI-Bench和MindCube上提升了5%-18%的性能,超越了更大的一般模型和竞争基线。
📝 摘要(中文)
多模态基础模型(MFM)在空间推理方面取得了显著进展,但在处理物理世界的空间关系时仍显脆弱。主要瓶颈在于它们无法将局部的自我中心观察转化为全局的分配中心空间表示。为此,本文提出了AlloSpatial,一个用于基础模型的分配中心空间认知的代理框架。AlloSpatial引入了World2Mind,一个即插即用的认知映射沙箱,将自我中心观察转换为结构化的分配中心先验,包括分配中心空间树和支持查询对象拓扑、几何关系、可通行性和轨迹的路线图。为了在噪声重建和模糊视觉证据下可靠地利用这些先验,AlloSpatial引入了空间推理工具,用于工具使用判断、模态解耦线索收集和几何-语义仲裁。实验结果表明,AlloSpatial在训练无关的设置中提升了5%-18%的性能。
🔬 方法详解
问题定义:本文旨在解决多模态基础模型在空间推理中的脆弱性,特别是其无法将局部自我中心观察转化为全局分配中心表示的问题。现有方法在处理物理世界的空间关系时表现不佳,导致推理能力受限。
核心思路:AlloSpatial框架的核心思想是通过引入World2Mind认知映射沙箱,将自我中心观察转化为结构化的分配中心先验。这种设计旨在增强模型对空间关系的理解和推理能力,尤其是在面对噪声和模糊视觉证据时。
技术框架:AlloSpatial的整体架构包括多个主要模块:World2Mind用于生成分配中心先验,空间推理工具用于判断和收集线索,以及几何-语义仲裁模块。这些模块协同工作,形成一个完整的空间认知流程。
关键创新:论文的主要创新在于引入了分配中心空间树(ASTs)和路线图,这些结构化表示能够在视觉输入缺失的情况下仍然支持强大的空间推理能力。这与现有方法的本质区别在于其强调了结构化先验的重要性。
关键设计:在设计上,AlloSpatial采用了冷启动强化学习策略,通过一个带有门控的轨迹级奖励机制来内化空间推理过程。此外,模型在处理噪声和模糊信息时,采用了模态解耦的线索收集策略,以提高推理的准确性和可靠性。
🖼️ 关键图片
📊 实验亮点
在VSI-Bench和MindCube的实验中,AlloSpatial框架在训练无关的设置下提升了5%-18%的性能,显示出其在空间推理任务中的有效性。此外,分配中心空间树(ASTs)在视觉输入缺失的情况下仍能支持强大的推理能力,表明其结构化表示的优势。
🎯 应用场景
AlloSpatial框架的潜在应用领域包括机器人导航、智能交通系统和增强现实等。通过提升模型的空间推理能力,该研究能够为自动化系统提供更精准的环境理解,进而推动智能体在复杂物理环境中的自主决策能力。未来,该框架可能在多模态交互和人机协作中发挥重要作用。
📄 摘要(原文)
Multimodal Foundation Models (MFMs) have made substantial progress, yet remain fragile in spatial reasoning over the physical world. A key bottleneck lies in their inability to transform local egocentric observations into a global allocentric spatial representation. To address this, we propose AlloSpatial, an agentic framework for allocentric spatial cognition in foundation models. AlloSpatial introduces World2Mind, a plug-and-play cognitive mapping sandbox that converts egocentric observations into structured allocentric priors, including Allocentric-Spatial Trees and route maps that support querying object topology, geometric relations, passability, and trajectories. To utilize these priors reliably under noisy reconstruction and ambiguous visual evidence, AlloSpatial introduces a Spatial Reasoning Harness for tool-use judgment, modality-decoupled cue collection, and geometry-semantic arbitration. We further internalize this process in Qwen3-VL through cold-start reinforcement learning with a harness-gated trajectory-level reward. Experiments on VSI-Bench and MindCube show that AlloSpatial improves proprietary models by 5%-18% in a training-free setting, while ASTs alone support strong spatial reasoning even when visual inputs are removed. The trained AlloSpatial agents further outperform larger general-purpose models and competitive spatial baselines, suggesting that structured allocentric representations, active tool use, and verifiable reasoning offer a promising route toward spatially capable foundation models.