SpatiO: Adaptive Test-Time Orchestration of Vision-Language Agents for Spatial Reasoning

📄 arXiv: 2604.21190v1 📥 PDF

作者: Chan Yeong Hwang, Miso Choi, Sunghyun On, Jinkyu Kim, Jungbeom Lee

分类: cs.CV

发布日期: 2026-04-23

备注: Technical report


💡 一句话要点

提出SpatiO框架,通过测试时编排视觉-语言Agent解决空间推理问题。

🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting)

关键词: 空间推理 视觉-语言Agent 多Agent系统 测试时编排 异构Agent 场景理解 自适应学习

📋 核心要点

  1. 现有空间推理方法依赖单一推理流程,缺乏在不同场景下的适应性,限制了性能。
  2. SpatiO框架通过异构多Agent系统,整合多种归纳偏置,提升空间推理能力。
  3. 测试时编排(TTO)动态评估和调整Agent权重,无需修改模型参数,实验证明有效。

📝 摘要(中文)

理解视觉场景不仅需要识别物体,还需要推理它们之间的空间关系。与通用的视觉-语言任务不同,空间推理需要整合多种归纳偏置,如2D外观线索、深度信号和几何约束,这些偏置的可靠性因上下文而异。这意味着有效的空间推理需要空间适应性:根据输入灵活地协调不同的推理策略。然而,现有方法大多依赖于单一的推理流程,隐式地学习固定的空间先验,限制了它们在分布变化下的适应能力。多Agent系统通过聚合不同的推理轨迹提供了一种有希望的替代方案,但以往在空间推理中的尝试主要采用同构Agent,限制了它们可以利用的归纳偏置的多样性。本文提出了SpatiO,一个用于空间推理的异构多Agent框架,它协调多个具有互补归纳偏置的视觉-语言专家。为了实现有效的协作,我们提出了测试时编排(TTO),这是一种优化机制,可以在推理过程中动态地评估和重新加权Agent,而无需修改模型参数。在包括3DSRBench、STVQA-7k、CV-Bench和Omni3D-Bench在内的各种空间推理基准上的大量实验表明,SpatiO始终优于闭源和开源基线。

🔬 方法详解

问题定义:论文旨在解决现有空间推理方法在面对不同场景时,由于缺乏空间适应性而导致的性能瓶颈问题。现有方法通常依赖于单一的推理流程,隐式地学习固定的空间先验,这使得它们难以适应分布变化,无法充分利用不同模态信息和归纳偏置。

核心思路:论文的核心思路是利用异构多Agent系统,每个Agent专注于不同的视觉-语言推理策略,并具有不同的归纳偏置。通过动态地协调这些Agent,可以根据输入场景的特点,灵活地选择和组合不同的推理策略,从而提高空间推理的准确性和鲁棒性。

技术框架:SpatiO框架包含多个视觉-语言Agent,每个Agent负责提取不同的特征和进行推理。框架的核心是测试时编排(TTO)模块,该模块在推理过程中动态地评估每个Agent的可靠性,并根据其可靠性重新加权Agent的输出。最终的推理结果是所有Agent输出的加权平均。

关键创新:SpatiO的关键创新在于异构多Agent架构和测试时编排(TTO)机制。异构Agent允许框架整合多种归纳偏置,而TTO机制则实现了在推理过程中动态地适应不同场景的能力。与现有方法相比,SpatiO不需要预先训练一个固定的空间先验,而是通过在线学习的方式,根据输入数据自适应地调整推理策略。

关键设计:TTO模块通过优化一个目标函数来确定每个Agent的权重。该目标函数旨在最大化推理结果的准确性,同时考虑Agent之间的差异性和一致性。具体的优化算法采用梯度下降法,在推理过程中迭代更新Agent的权重。Agent的具体实现可以采用不同的视觉-语言模型,例如Transformer或CNN。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SpatiO在多个空间推理基准测试中取得了显著的性能提升。例如,在3DSRBench上,SpatiO超越了现有最佳方法,并在STVQA-7k、CV-Bench和Omni3D-Bench等数据集上也表现出优越的性能。实验结果表明,SpatiO能够有效地整合多种归纳偏置,并根据输入场景自适应地调整推理策略。

🎯 应用场景

SpatiO框架可应用于机器人导航、自动驾驶、智能家居等领域。通过提升机器对周围环境的理解能力,可以实现更安全、更智能的人机交互。该研究对开发更具适应性和鲁棒性的视觉-语言系统具有重要意义,未来可扩展到更复杂的场景理解任务。

📄 摘要(原文)

Understanding visual scenes requires not only recognizing objects but also reasoning about their spatial relationships. Unlike general vision-language tasks, spatial reasoning requires integrating multiple inductive biases, such as 2D appearance cues, depth signals, and geometric constraints, whose reliability varies across contexts. This suggests that effective spatial reasoning requires \emph{spatial adaptability}: the ability to flexibly coordinate different reasoning strategies depending on the input. However, most existing approaches rely on a single reasoning pipeline that implicitly learns a fixed spatial prior, limiting their ability to adapt under distribution changes. Multi-agent systems offer a promising alternative by aggregating diverse reasoning trajectories, but prior attempts in spatial reasoning primarily employ homogeneous agents, restricting the diversity of inductive biases they can leverage. In this work, we introduce \textbf{\textsc{SpatiO}}, a heterogeneous multi-agent framework for spatial reasoning that coordinates multiple vision-language specialists with complementary inductive biases. To enable effective collaboration, we propose \textbf{Test-Time Orchestration (TTO)}, an optimization mechanism that dynamically evaluates and reweights agents based on their observed reliability during inference, without modifying model parameters. Extensive experiments on diverse spatial reasoning benchmarks, including 3DSRBench, STVQA-7k, CV-Bench, and Omni3D-Bench, demonstrate that \textsc{SpatiO} consistently improves spatial reasoning performance over both closed-source and open-source baselines.