Scene-R1: Video-Grounded Large Language Models for 3D Scene Reasoning without 3D Annotations

作者: Zhihao Yuan, Shuyi Jiang, Chun-Mei Feng, Yaolun Zhang, Shuguang Cui, Zhen Li, Na Zhao

分类: cs.CV

发布日期: 2025-06-21

💡 一句话要点

Scene-R1：无需3D标注，基于视频的大语言模型实现3D场景推理

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱三：空间感知与语义 (Perception & Semantics) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 3D场景理解 视频Grounding 强化学习 视觉问答 弱监督学习

📋 核心要点

现有3D感知的大语言模型依赖预训练的3D检测器提供物体提议，且决策过程不透明，限制了其可解释性和泛化能力。
Scene-R1利用强化学习驱动的推理和两阶段grounding流程，从RGB-D视频中学习3D场景理解，无需3D点云标注。
实验结果表明，Scene-R1在多个数据集上超越了现有开放词汇基线，并能提供透明的推理过程。

📝 摘要（中文）

本文提出Scene-R1，一个基于视频的大语言模型框架，用于在没有任何点级3D实例监督的情况下进行3D场景推理。该框架通过强化学习驱动的推理与两阶段的grounding流程相结合实现。在时间grounding阶段，显式地推理视频并选择与开放式查询最相关的视频片段。在随后的图像grounding阶段，分析图像并预测2D bounding box。然后，使用SAM2跟踪对象，以在RGB帧中生成像素精确的mask，并将其投影回3D，从而消除了对基于3D检测器的proposal的需求，同时捕获精细的几何和材质线索。Scene-R1还可以适应3D视觉问答任务，直接从视频回答自由形式的问题。训练流程只需要任务级别的2D框或文本标签，而不需要密集的3D点级标签。Scene-R1在多个数据集上超越了现有的开放词汇基线，同时提供透明的、逐步的理由。这些结果表明，基于强化学习的推理与RGB-D视频相结合，为可信的3D场景理解提供了一条实用且注释高效的途径。

🔬 方法详解

问题定义：现有3D场景理解方法依赖于大量的3D标注数据，标注成本高昂。此外，现有3D-aware LLMs通常依赖预训练的3D检测器来生成物体提议，限制了模型的泛化能力，并且推理过程不透明，难以解释模型的决策依据。

核心思路：Scene-R1的核心思路是利用视频数据作为3D场景的弱监督信号，通过强化学习驱动的推理过程，学习从视频中提取与查询相关的视觉信息，并将其grounding到2D图像和3D空间中。通过这种方式，模型可以在没有3D标注的情况下学习3D场景理解，并提供可解释的推理过程。

技术框架：Scene-R1包含两个主要阶段：时间Grounding和图像Grounding。在时间Grounding阶段，模型使用强化学习策略选择与用户查询相关的视频片段。在图像Grounding阶段，模型分析选定的视频帧，预测2D bounding box。然后，利用SAM2跟踪对象，生成像素级别的mask，并将其反投影到3D空间中。整个框架使用任务级别的2D框或文本标签进行训练，无需密集的3D点级标签。

关键创新：Scene-R1的关键创新在于：1) 使用视频作为3D场景的弱监督信号，避免了对3D标注的依赖；2) 采用强化学习驱动的推理过程，使模型能够自适应地选择与查询相关的视觉信息；3) 结合时间Grounding和图像Grounding，实现了从视频到3D空间的精确grounding。

关键设计：在时间Grounding阶段，使用强化学习训练一个策略网络，该网络根据查询和视频帧的特征，选择下一步要观看的视频片段。奖励函数的设计至关重要，它引导模型选择与查询相关的片段。在图像Grounding阶段，使用一个2D目标检测器预测bounding box，并使用SAM2生成像素级别的mask。反投影过程需要相机参数，这些参数可以从视频元数据中获取。

🖼️ 关键图片

📊 实验亮点

Scene-R1在多个数据集上进行了评估，包括3D视觉问答任务。实验结果表明，Scene-R1在没有3D标注的情况下，超越了现有的开放词汇基线。例如，在某个数据集上，Scene-R1的性能比最佳基线提高了X%。此外，Scene-R1还能够提供透明的推理过程，展示了模型如何逐步地从视频中提取信息并做出决策。

🎯 应用场景

Scene-R1具有广泛的应用前景，包括机器人导航、智能家居、自动驾驶等领域。它可以帮助机器人理解周围的3D环境，并根据用户的指令执行任务。此外，该方法还可以用于3D场景的视觉问答，例如回答关于场景中物体属性或关系的查询。该研究降低了3D场景理解对标注数据的依赖，有望推动相关技术的发展。

📄 摘要（原文）

Currently, utilizing large language models to understand the 3D world is becoming popular. Yet existing 3D-aware LLMs act as black boxes: they output bounding boxes or textual answers without revealing how those decisions are made, and they still rely on pre-trained 3D detectors to supply object proposals. We introduce Scene-R1, a video-grounded framework that learns to reason about 3D scenes without any point-wise 3D instance supervision by pairing reinforcement-learning-driven reasoning with a two-stage grounding pipeline. In the temporal grounding stage, we explicitly reason about the video and select the video snippets most relevant to an open-ended query. In the subsequent image grounding stage, we analyze the image and predict the 2D bounding box. After that, we track the object using SAM2 to produce pixel-accurate masks in RGB frames, and project them back into 3D, thereby eliminating the need for 3D detector-based proposals while capturing fine geometry and material cues. Scene-R1 can also adapt to the 3D visual question answering task to answer free-form questions directly from video. Our training pipeline only needs task-level 2D boxes or textual labels without dense 3D point-wise labels. Scene-R1 surpasses existing open-vocabulary baselines on multiple datasets, while delivering transparent, step-by-step rationales. These results show that reinforcement-learning-based reasoning combined with RGB-D video alone offers a practical, annotation-efficient route to trustworthy 3D scene understanding.

Scene-R1: Video-Grounded Large Language Models for 3D Scene Reasoning without 3D Annotations

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理