Learning Multi-View Spatial Reasoning from Cross-View Relations

📄 arXiv: 2603.27967v1 📥 PDF

作者: Suchae Jeong, Jaehwi Song, Haeone Lee, Hanna Kim, Jian Kim, Dongjun Lee, Dong Kyu Shin, Changyeon Kim, Dongyoon Hahm, Woogyeol Jin, Juheon Choi, Kimin Lee

分类: cs.CV

发布日期: 2026-03-30

备注: Accepted to CVPR 2026


💡 一句话要点

提出XVR数据集,提升视觉语言模型在多视角空间推理和机器人操作中的能力

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱七:动作重定向 (Motion Retargeting) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多视角推理 视觉语言模型 具身智能 机器人操作 空间关系

📋 核心要点

  1. 现有视觉语言模型在单视角视觉任务中表现出色,但在多视角空间推理方面存在不足,限制了其在具身智能中的应用。
  2. 论文构建了大规模跨视角关系数据集XVR,包含对应关系、验证和定位三个任务,用于训练视觉语言模型的多视角空间推理能力。
  3. 实验表明,在XVR上训练的视觉语言模型在多视角推理和机器人操作任务上均取得了显著提升,验证了该方法的有效性。

📝 摘要(中文)

本文提出了Cross-View Relations (XVR)数据集,旨在提升视觉语言模型(VLMs)在多视角空间推理方面的能力,这对于具身智能系统理解3D环境和跨视角操作物体至关重要。XVR包含10万个视觉问答样本,来源于1.8万个不同的3D场景和7万条机器人操作轨迹,涵盖了三个基本的空间推理任务:对应关系(跨视角匹配物体)、验证(验证空间关系)和定位(识别物体位置)。在XVR上微调的VLMs在多视角和机器人空间推理基准测试(MindCube和RoboSpatial)上取得了显著的改进。当作为视觉-语言-动作模型的主干时,XVR训练的表征提高了RoboCasa上的成功率。结果表明,在跨视角空间关系上进行显式训练可以显著增强多视角推理能力,并有效地迁移到真实世界的机器人操作中。

🔬 方法详解

问题定义:现有视觉语言模型在单视角任务上表现良好,但缺乏在具身智能系统中至关重要的多视角空间推理能力。这限制了它们理解3D环境和跨视角操作物体的能力。现有方法难以有效学习跨视角的空间关系,导致在多视角场景下的推理性能不佳。

核心思路:论文的核心思路是通过构建一个大规模的、包含丰富跨视角空间关系的数据集XVR,来显式地训练视觉语言模型的多视角空间推理能力。通过让模型学习不同视角下物体之间的对应关系、空间关系的验证以及物体位置的定位,从而提升其在多视角场景下的理解和推理能力。

技术框架:整体框架包括数据集构建和模型训练两个主要阶段。数据集构建阶段,作者收集了大量3D场景和机器人操作轨迹,并从中生成视觉问答样本,涵盖对应关系、验证和定位三个任务。模型训练阶段,作者使用视觉语言模型,并在XVR数据集上进行微调,以学习跨视角的空间关系。训练后的模型可以应用于多视角推理和机器人操作任务。

关键创新:该论文的关键创新在于提出了XVR数据集,这是一个专门为训练视觉语言模型多视角空间推理能力而设计的大规模数据集。与现有数据集相比,XVR更加关注跨视角的空间关系,并包含了丰富的3D场景和机器人操作轨迹,更贴近实际应用场景。

关键设计:XVR数据集包含10万个视觉问答样本,来源于1.8万个不同的3D场景和7万条机器人操作轨迹。数据集涵盖了三个基本的空间推理任务:对应关系(跨视角匹配物体)、验证(验证空间关系)和定位(识别物体位置)。视觉语言模型使用标准的Transformer架构,并在XVR数据集上进行微调,使用交叉熵损失函数进行优化。具体的参数设置和网络结构细节在论文中未详细说明,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在XVR数据集上微调的视觉语言模型在MindCube和RoboSpatial等多视角和机器人空间推理基准测试上取得了显著的改进。此外,将XVR训练的表征作为视觉-语言-动作模型的主干时,在RoboCasa上的成功率也得到了提高。这些结果表明,通过显式训练跨视角空间关系,可以有效提升多视角推理能力,并迁移到真实世界的机器人操作中。

🎯 应用场景

该研究成果可广泛应用于机器人导航、物体操作、增强现实等领域。例如,机器人可以利用多视角空间推理能力更好地理解周围环境,从而实现更精准的导航和物体抓取。在增强现实应用中,可以实现更自然的虚拟物体与真实环境的交互。未来,该技术有望推动具身智能的发展,使机器人能够更好地服务于人类。

📄 摘要(原文)

Vision-language models (VLMs) have achieved impressive results on single-view vision tasks, but lack the multi-view spatial reasoning capabilities essential for embodied AI systems to understand 3D environments and manipulate objects across different viewpoints. In this work, we introduce Cross-View Relations (XVR), a large-scale dataset designed to teach VLMs spatial reasoning across multiple views. XVR comprises 100K vision-question-answer samples derived from 18K diverse 3D scenes and 70K robotic manipulation trajectories, spanning three fundamental spatial reasoning tasks: Correspondence (matching objects across views), Verification (validating spatial relationships), and Localization (identifying object positions). VLMs fine-tuned on XVR achieve substantial improvements on established multi-view and robotic spatial reasoning benchmarks (MindCube and RoboSpatial). When integrated as backbones in Vision-Language-Action models, XVR-trained representations improve success rates on RoboCasa. Our results demonstrate that explicit training on cross-view spatial relations significantly enhances multi-view reasoning and transfers effectively to real-world robotic manipulation.