Cambrian-P: Pose-Grounded Video Understanding
作者: Jihan Yang, Zifan Zhao, Xichen Pan, Shusheng Yang, Junyi Zhang, Bingyi Kang, Hu Xu, Saining Xie
分类: cs.CV
发布日期: 2026-05-21
备注: Project Page: https://cambrian-mllm.github.io/
💡 一句话要点
Cambrian-P:提出一种基于相机位姿的多模态视频理解模型,提升空间推理能力。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视频理解 多模态学习 相机位姿估计 空间推理 大型语言模型
📋 核心要点
- 现有的多模态大型语言模型在视频理解中忽略了相机位姿这一重要信息,导致空间推理能力不足。
- Cambrian-P通过引入可学习的相机token和位姿回归头,将相机位姿信息融入到视频MLLM中,从而提升模型对视频场景的理解。
- 实验表明,Cambrian-P在空间推理和通用视频问答任务上均取得了显著提升,并在ScanNet上实现了最先进的流式位姿估计。
📝 摘要(中文)
相机位姿至关重要。每个视点的位置和方向定义了一个共享的空间坐标系,将视频帧中的观测结果联系起来。然而,多模态大型语言模型(MLLM)在视频理解方面很大程度上忽略了这一信号,它们将帧视为孤立的2D快照,而不是人类感知的持久场景。我们重新审视位姿作为一个轻量级的监督信号,并引入Cambrian-P,这是一个视频MLLM,它通过每帧可学习的相机token和一个位姿回归头进行增强。通过精心设计的采样方案,该模型在VSI-Bench等空间推理基准测试中取得了4.5-6.5%的显著提升,推广到八个额外的空间和通用视频问答基准测试,并且作为副产品,在ScanNet上实现了最先进的流式位姿估计。令人惊讶的是,在来自真实视频的伪标注位姿上进行训练进一步提高了通用视频问答基准测试的性能,表明位姿在空间推理之外也有帮助。总之,这些结果将相机位姿定位为视频模型推理物理世界的基本信号。
🔬 方法详解
问题定义:现有的多模态视频理解模型通常将视频帧视为独立的2D图像,忽略了相机位姿提供的空间信息。这种忽略导致模型在需要空间推理的任务中表现不佳,例如理解物体之间的空间关系、预测物体的运动轨迹等。现有方法缺乏有效利用相机位姿信息的能力,无法充分理解视频场景的3D结构。
核心思路:Cambrian-P的核心思路是将相机位姿作为一种轻量级的监督信号,融入到多模态大型语言模型中。通过学习每帧的相机位姿,模型可以更好地理解视频场景的3D结构,从而提升空间推理能力。该方法的核心在于利用相机位姿建立视频帧之间的空间联系,使得模型能够像人类一样感知持久的场景。
技术框架:Cambrian-P的整体架构包括以下几个主要模块:1) 视频帧编码器:用于提取视频帧的视觉特征。2) 相机位姿回归头:用于预测每帧的相机位姿。3) 可学习的相机token:用于将相机位姿信息融入到多模态大型语言模型中。4) 多模态大型语言模型:用于进行视频理解和问答。模型首先通过视频帧编码器提取视觉特征,然后通过相机位姿回归头预测每帧的相机位姿,接着将相机位姿信息通过可学习的相机token融入到多模态大型语言模型中,最后利用多模态大型语言模型进行视频理解和问答。
关键创新:Cambrian-P最重要的技术创新点在于将相机位姿作为一种轻量级的监督信号,融入到多模态大型语言模型中。与现有方法相比,Cambrian-P能够更有效地利用相机位姿信息,从而提升模型对视频场景的3D结构的理解。此外,该模型还提出了一种精心设计的采样方案,进一步提升了模型的性能。
关键设计:Cambrian-P的关键设计包括:1) 使用可学习的相机token来表示相机位姿信息,使得模型能够更好地学习相机位姿与视觉特征之间的关系。2) 设计了一个相机位姿回归头,用于预测每帧的相机位姿。3) 采用了一种精心设计的采样方案,用于选择训练样本,从而提升模型的性能。4) 使用伪标注的相机位姿数据进行训练,进一步提升了模型的泛化能力。
🖼️ 关键图片
📊 实验亮点
Cambrian-P在VSI-Bench空间推理基准测试中取得了4.5-6.5%的显著提升。此外,该模型还在八个额外的空间和通用视频问答基准测试中表现出良好的泛化能力。作为副产品,Cambrian-P在ScanNet上实现了最先进的流式位姿估计。更令人惊讶的是,在来自真实视频的伪标注位姿上进行训练进一步提高了通用视频问答基准测试的性能。
🎯 应用场景
Cambrian-P在机器人导航、自动驾驶、增强现实等领域具有广泛的应用前景。通过理解相机位姿,机器人可以更好地感知周围环境,从而实现更精确的导航和操作。在自动驾驶领域,Cambrian-P可以帮助车辆更好地理解交通场景,从而提高驾驶安全性。在增强现实领域,Cambrian-P可以帮助用户更自然地与虚拟环境进行交互。
📄 摘要(原文)
Camera pose matters. The position and orientation of each viewpoint define a shared spatial coordinate frame that relates observations across video frames. Yet this signal is largely absent from multimodal LLMs (MLLMs) for video understanding, which process frames as isolated 2D snapshots, instead of the persistent scene humans perceive. We revisit pose as a lightweight supervisory signal and introduce Cambrian-P, a video MLLM augmented with per-frame learnable camera tokens and a pose regression head. With a carefully designed sampling scheme, the model achieves substantial gains of 4.5-6.5% on spatial reasoning benchmarks such as VSI-Bench, generalizes across eight additional spatial and general video QA benchmarks, and, as a byproduct, achieves state of the art streaming pose estimation on ScanNet. Surprisingly, training on pseudo-annotated poses from in-the-wild video further improves general video QA benchmarks, showing pose helps beyond spatial reasoning. Together, these results position camera pose as a fundamental signal for video models that reason about the physical world.