SPATIOROUTE: Dynamic Prompt Routing for Zero-Shot Spatial Reasoning

📄 arXiv: 2605.18209v1 📥 PDF

作者: Pawat Chunhachatrachai, Gueter Josmy Faure, Hung-Ting Su, Winston H. Hsu

分类: cs.CV, cs.AI

发布日期: 2026-05-18

备注: 10 pages, 2 figures, 2nd Workshop on 3D-LLM/VLA, CVPR 2026


💡 一句话要点

SpatioRoute:动态提示路由,用于零样本空间推理。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱六:视频提取与匹配 (Video Extraction) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 空间问答 零样本学习 动态提示 视觉-语言模型 提示工程

📋 核心要点

  1. 现有方法在零样本空间问答中,难以有效利用视觉-语言模型进行3D空间推理,缺乏对问题类型的针对性处理。
  2. SpatioRoute通过动态生成提示模板,根据问题类型和上下文信息,为每个问题定制最合适的提示,提升模型推理能力。
  3. 实验表明,SpatioRoute在SQA3D基准上取得了显著的性能提升,相较于固定提示基线,准确率提升高达5%。

📝 摘要(中文)

本文提出SpatioRoute,一种动态提示生成方法,用于解决以自我为中心的视频中的空间问答任务。该任务要求视觉-语言模型(VLMs)推理3D物体位置、场景可供性和方向关系,尤其是在没有任务特定微调的零样本设置下。SpatioRoute将每个输入问题路由到语义定制的提示模板,无需任何额外的训练、微调或3D传感器输入。SpatioRoute在两种互补模式下运行:SpatioRoute-R,一种基于规则的路由器,确定性地将问题类型(例如,What、Is、How、Can、Which)映射到专门的提示模板;以及SpatioRoute-L,一种由LLM驱动的方法,仅从问题和情境上下文中生成任务特定的提示,而无需在路由时输入视频。在SQA3D基准上,我们评估了跨越多个模型系列的VLMs。SpatioRoute实现了高达5%的一致的整体准确率提升,为零样本视频空间VQA建立了新的最先进水平,而无需3D点云输入。此外,我们观察到,通过Think it Twice架构实现的Chain-of-Thought (CoT)提示,在这种设置下始终会降低Qwen系列模型的性能,证实了问题感知的路由比用于空间视频理解的统一推理指令更有效。

🔬 方法详解

问题定义:论文旨在解决零样本场景下,以自我为中心的视频空间问答问题。现有方法主要依赖于固定的提示模板,无法根据问题的具体类型和上下文信息进行调整,导致模型在复杂的空间推理任务中表现不佳。尤其是在没有3D点云等额外信息的情况下,如何有效利用视觉-语言模型进行空间推理是一个挑战。

核心思路:论文的核心思路是动态提示路由。通过分析输入问题的类型和上下文信息,选择或生成最适合该问题的提示模板。这种方法能够使模型更好地理解问题的意图,并利用视觉信息进行更准确的空间推理。SpatioRoute的核心在于根据问题类型动态选择或生成提示,而不是使用统一的提示模板。

技术框架:SpatioRoute包含两个主要模块:SpatioRoute-R和SpatioRoute-L。SpatioRoute-R是一个基于规则的路由器,它根据问题的类型(例如,What、Is、How等)将问题映射到预定义的提示模板。SpatioRoute-L是一个基于LLM的提示生成器,它利用LLM从问题和上下文信息中生成任务特定的提示。这两个模块可以独立使用,也可以结合使用。整体流程是:输入问题 -> (SpatioRoute-R或SpatioRoute-L) -> 提示模板 -> 视觉-语言模型 -> 答案。

关键创新:SpatioRoute的关键创新在于动态提示路由的思想。与传统的固定提示方法相比,SpatioRoute能够根据问题的具体情况生成或选择最合适的提示,从而提高模型的推理能力。此外,SpatioRoute无需额外的训练、微调或3D传感器输入,使其更易于部署和应用。

关键设计:SpatioRoute-R的关键设计在于预定义的提示模板。这些模板是根据常见的问题类型手工设计的,旨在引导模型进行特定的空间推理。SpatioRoute-L的关键设计在于LLM的选择和提示策略。论文使用了不同的LLM进行实验,并探索了不同的提示策略,以提高LLM生成提示的质量。论文没有提及具体的损失函数或网络结构,因为该方法主要关注提示工程。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

SpatioRoute在SQA3D基准上取得了显著的性能提升。与固定提示基线相比,SpatioRoute实现了高达5%的整体准确率提升,并建立了零样本视频空间VQA的新SOTA。此外,实验还表明,Chain-of-Thought (CoT)提示在这种设置下会降低Qwen系列模型的性能,证实了问题感知的路由比统一推理指令更有效。

🎯 应用场景

SpatioRoute可应用于机器人导航、智能家居、增强现实等领域。例如,在机器人导航中,机器人可以利用SpatioRoute理解人类的指令,并根据环境信息进行空间推理,从而实现更智能的导航。在智能家居中,SpatioRoute可以帮助用户通过自然语言与智能设备进行交互,例如询问某个物体的位置或控制设备的开关。

📄 摘要(原文)

Spatial question answering over egocentric video is a challenging task that requires Vision-Language Models (VLMs) to reason about 3D object positions, scene affordances, and directional relationships, particularly in the zero-shot setting where no task-specific fine-tuning is available. We introduce SpatioRoute, a dynamic prompt generation approach that routes each incoming question to a semantically tailored prompt template -- without any additional training, fine-tuning, or 3D sensor input. SpatioRoute operates in two complementary modes: SpatioRoute-R, a rule-based router that deterministically maps question typologies (e.g., What, Is, How, Can, Which) to specialized prompt templates; and SpatioRoute-L, an LLM-driven approach that generates task-specific prompts from the question and situational context alone, with no video input at routing time. We evaluate SpatioRoute on the SQA3D benchmark across VLMs spanning model families. SpatioRoute achieves consistent overall accuracy gains up to 5% over fixed prompt baselines, establishing a new state-of-the-art for zero-shot video-only spatial VQA without requiring 3D point-cloud inputs. As an additional finding, we observe that Chain-of-Thought (CoT) prompting, implemented via the Think it Twice architecture, consistently degrades performance in this setting on Qwen series models, confirming that question-aware routing is more effective than uniform reasoning instructions for spatial video understanding.