Learning to Reason in 4D: Dynamic Spatial Understanding for Vision Language Models

📄 arXiv: 2512.20557v1 📥 PDF

作者: Shengchao Zhou, Yuxin Chen, Yuying Ge, Wei Huang, Jiehong Lin, Ying Shan, Xiaojuan Qi

分类: cs.CV

发布日期: 2025-12-23


💡 一句话要点

提出DSR Suite和几何选择模块GSM,提升VLM在动态空间推理能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 动态空间推理 视觉语言模型 4D感知 几何选择模块 视频理解

📋 核心要点

  1. 现有VLM在动态空间推理方面存在不足,缺乏大规模4D感知训练数据是主要瓶颈。
  2. 提出DSR Suite,包含自动生成DSR问答对的流程和轻量级几何选择模块GSM,用于增强VLM的动态空间推理能力。
  3. 实验表明,将DSR-Train和GSM集成到Qwen2.5-VL-7B中,显著提升了其动态空间推理能力,同时保持了通用视频理解的准确性。

📝 摘要(中文)

视觉语言模型(VLM)在通用理解方面表现出色,但在动态空间推理(DSR)方面仍然较弱,即对3D空间中物体几何和关系随时间演变的推理。这主要是由于缺乏可扩展的4D感知训练资源。为了弥合数据集、基准和模型方面的差距,我们引入了DSR Suite。首先,我们提出了一个自动化的流程,从真实视频中生成用于DSR的多项选择问答对。通过利用现代视觉基础模型,该流程提取丰富的几何和运动信息,包括相机姿势、局部点云、物体掩码、方向和3D轨迹。这些几何线索使得能够构建用于学习的DSR-Train和进一步人工改进的用于评估的DSR-Bench。与之前的工作相比,我们的数据强调(i)真实视频来源,(ii)物体和场景级别的3D要求,(iii)视点变换,(iv)多物体交互,以及(v)细粒度的程序性答案。除了数据,我们提出了一个轻量级的几何选择模块(GSM),以无缝地将几何先验知识集成到VLM中,该模块将问题语义浓缩,并从预训练的4D重建先验知识中提取与问题相关的知识到一组紧凑的几何token中。这种有针对性的提取避免了用不相关的知识淹没模型。实验表明,将DSR-Train和GSM集成到Qwen2.5-VL-7B中显著增强了其动态空间推理能力,同时保持了在通用视频理解基准上的准确性。

🔬 方法详解

问题定义:现有视觉语言模型(VLM)在理解静态图像和视频内容方面取得了显著进展,但在动态空间推理(DSR)方面仍然存在不足。DSR指的是理解3D空间中物体几何形状和关系随时间演变的能力。缺乏大规模、高质量的4D感知训练数据是制约VLM在DSR方面表现的关键因素。现有方法难以有效利用视频中的几何和运动信息,导致模型难以进行准确的动态空间推理。

核心思路:论文的核心思路是通过构建大规模的DSR数据集和设计轻量级的几何选择模块(GSM)来提升VLM的DSR能力。DSR Suite旨在提供丰富的4D感知训练资源,而GSM则负责将几何先验知识有效地融入到VLM中。通过这种数据和模型相结合的方式,可以显著提高VLM在动态空间推理方面的性能。

技术框架:整体框架包含两个主要部分:DSR Suite和几何选择模块(GSM)。DSR Suite负责生成大规模的DSR训练数据,包括DSR-Train和DSR-Bench。该流程利用视觉基础模型提取视频中的几何和运动信息,例如相机姿势、点云、物体掩码、方向和3D轨迹。GSM则是一个轻量级的模块,用于将几何先验知识集成到VLM中。它首先浓缩问题语义,然后从预训练的4D重建先验知识中提取与问题相关的几何token。

关键创新:论文的关键创新在于以下几个方面:1) 提出了一个自动化的流程,可以从真实视频中生成大规模的DSR问答对,解决了缺乏4D感知训练数据的问题。2) 设计了轻量级的几何选择模块(GSM),可以有效地将几何先验知识融入到VLM中,避免了用不相关的知识淹没模型。3) DSR Suite强调真实视频来源、物体和场景级别的3D要求、视点变换、多物体交互以及细粒度的程序性答案,更贴近实际应用场景。

关键设计:DSR Suite的关键设计包括:1) 利用视觉基础模型提取丰富的几何和运动信息,例如相机姿势、点云、物体掩码、方向和3D轨迹。2) 设计了多项选择问答对的生成规则,确保问题具有挑战性和多样性。GSM的关键设计包括:1) 使用注意力机制来选择与问题相关的几何token。2) 将几何token与问题嵌入进行融合,从而增强VLM的动态空间推理能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,将DSR-Train和GSM集成到Qwen2.5-VL-7B中,显著增强了其动态空间推理能力,同时保持了在通用视频理解基准上的准确性。具体性能数据未知,但论文强调了在DSR方面的显著提升,表明该方法在动态空间推理方面具有较强的竞争力。

🎯 应用场景

该研究成果可应用于机器人导航、自动驾驶、视频监控、增强现实等领域。例如,机器人可以利用动态空间推理能力更好地理解周围环境,从而进行更智能的导航和交互。自动驾驶系统可以利用该技术更准确地预测其他车辆和行人的行为,从而提高安全性。该研究还有助于开发更智能的视频分析系统,用于监控和安全应用。

📄 摘要(原文)

Vision-language models (VLM) excel at general understanding yet remain weak at dynamic spatial reasoning (DSR), i.e., reasoning about the evolvement of object geometry and relationship in 3D space over time, largely due to the scarcity of scalable 4D-aware training resources. To bridge this gap across aspects of dataset, benchmark and model, we introduce DSR Suite. First, we propose an automated pipeline that generates multiple-choice question-answer pairs from in-the-wild videos for DSR. By leveraging modern vision foundation models, the pipeline extracts rich geometric and motion information, including camera poses, local point clouds, object masks, orientations, and 3D trajectories. These geometric cues enable the construction of DSR-Train for learning and further human-refined DSR-Bench for evaluation. Compared with previous works, our data emphasize (i) in-the-wild video sources, (ii) object- and scene-level 3D requirements, (iii) viewpoint transformations, (iv) multi-object interactions, and (v) fine-grained, procedural answers. Beyond data, we propose a lightweight Geometry Selection Module (GSM) to seamlessly integrate geometric priors into VLMs, which condenses question semantics and extracts question-relevant knowledge from pretrained 4D reconstruction priors into a compact set of geometry tokens. This targeted extraction avoids overwhelming the model with irrelevant knowledge. Experiments show that integrating DSR-Train and GSM into Qwen2.5-VL-7B significantly enhances its dynamic spatial reasoning capability, while maintaining accuracy on general video understanding benchmarks.