ViSRA: A Video-based Spatial Reasoning Agent for Multi-modal Large Language Models

作者: Tingshu Mou, Jiabo He, Renying Wang, Ce Liu, Hao Yang, Tiehua Zhang, Jingjing Chen, Xingjun Ma

分类: cs.CV, cs.AI

发布日期: 2026-05-11

💡 一句话要点

提出ViSRA：一种无需训练的视频空间推理智能体，旨在提升多模态大模型的3D空间理解能力。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态大模型 空间推理 无需训练 视频理解 即插即用 3D感知 智能体

📋 核心要点

现有MLLMs主要依赖昂贵的后训练来提升空间智能，缺乏对推理阶段机制的深入探索，且易导致针对特定任务的过拟合。
ViSRA采用无需训练的智能体范式，通过集成外部专家模型的显式空间信息，以模块化方式增强MLLMs的3D空间推理能力。
实验证明ViSRA在多个基准测试中表现优异，在已知和未见任务上分别实现了最高15.6%和28.9%的性能提升。

📝 摘要（中文）

多模态大模型（MLLMs）在3D空间智能方面取得了进展，但主要依赖于针对特定基准的后训练，推理阶段的方法探索相对不足。本文提出ViSRA，一个无需训练的视频空间推理智能体，旨在探究MLLMs的空间推理机制。ViSRA通过利用专家模型提供的显式空间信息，以模块化和可扩展的方式激发空间推理能力，实现了即插即用的灵活范式。ViSRA具有两大优势：一是实现与人类对齐且具有迁移性的3D理解，而非针对特定任务的过拟合；二是无需后训练计算成本及繁琐的人工数据集标注。实验结果表明，ViSRA在现有基准和未见过的3D空间推理任务上均显著提升了多种MLLMs的性能，绝对增幅分别高达15.6%和28.9%。

🔬 方法详解

问题定义：当前MLLMs在处理复杂3D空间推理任务时，往往受限于训练数据的分布，且缺乏通用的空间推理能力。现有方法过度依赖针对特定基准的微调，导致模型在面对未见过的空间场景时泛化能力较差，且训练成本高昂。

核心思路：论文提出了一种“无需训练”（Training-free）的推理框架。核心思想是将空间推理任务解耦，利用现成的专家模型（如深度估计、物体检测等）提取显式空间特征，并将其作为辅助信息注入MLLMs的推理过程，从而在不改变模型参数的前提下增强其空间感知能力。

技术框架：ViSRA采用模块化设计，主要包含三个阶段：首先是感知阶段，利用专家模型从视频帧中提取深度图、点云或物体边界框等空间信息；其次是推理阶段，将这些显式空间信息转化为文本描述或结构化提示，输入到MLLMs中；最后是决策阶段，MLLMs结合视觉输入与专家空间信息进行逻辑推理并输出结果。

关键创新：最大的创新在于其“即插即用”的特性。它打破了依赖大规模标注数据进行后训练的范式，通过引入外部专家知识，使模型能够以人类对齐的方式理解3D空间，显著提升了模型在跨任务场景下的迁移能力。

关键设计：该框架通过设计特定的提示工程（Prompt Engineering）来融合多模态信息，确保专家模型提供的空间先验能够被MLLMs有效理解。此外，模块化的架构允许用户根据具体任务需求灵活替换或添加不同的专家模型，具有极高的扩展性。

🖼️ 关键图片

📊 实验亮点

ViSRA在多个主流MLLMs上进行了验证，实验结果显示其在现有基准测试中提升了15.6%的准确率。更重要的是，在未见过的3D空间推理任务中，该方法展现了极强的泛化性能，绝对增幅高达28.9%，证明了其无需训练即可实现跨任务迁移的显著优势。

🎯 应用场景

ViSRA在机器人导航、自动驾驶、增强现实（AR）以及智能视频监控等领域具有广阔应用前景。通过赋予MLLMs更强的3D空间推理能力，该方法能显著提升机器人对复杂环境的理解与交互水平，减少对特定场景标注数据的依赖，推动通用人工智能在物理世界中的落地应用。

📄 摘要（原文）

Recent advances in Multi-modal Large Language Models (MLLMs) target 3D spatial intelligence, yet the progress has been largely driven by post-training on curated benchmarks, leaving the inference-time approach relatively underexplored. In this paper, we take a training-free perspective and introduce ViSRA, a human-aligned Video-based Spatial Reasoning Agent, as a framework to probe the spatial reasoning mechanism of MLLMs. ViSRA elicits spatial reasoning in a modular and extensible manner by leveraging explicit spatial information from expert models, enabling a plug-and-play flexible paradigm. ViSRA offers two key advantages: (1) human-aligned and transferable 3D understanding rather than task-specific overfitting; and (2) no post-training computational cost along with heavy manual curation of spatial reasoning datasets. Experimental results demonstrate consistent improvement across a set of MLLMs on both existing benchmarks and unseen 3D spatial reasoning tasks, with ViSRA outperforming baselines by up to a 15.6% and 28.9% absolute margin respectively.

ViSRA: A Video-based Spatial Reasoning Agent for Multi-modal Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理