Geometry-Guided Camera Motion Understanding in VideoLLMs

📄 arXiv: 2603.13119v1 📥 PDF

作者: Haoan Feng, Sri Harsha Musunuri, Guan-Ming Su

分类: cs.CV, cs.AI

发布日期: 2026-03-13

备注: 10 pages, 7 figures, supplementary included


💡 一句话要点

提出CameraMotionVQA基准与几何引导注入方法,提升VideoLLM对相机运动的理解

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: VideoLLM 相机运动理解 几何引导 结构化提示 3D基础模型 视频问答 多模态学习

📋 核心要点

  1. 现有VideoLLM在理解细粒度相机运动原语方面存在不足,未能充分利用相机运动这一重要的几何信息。
  2. 提出一种轻量级的、模型无关的几何引导注入方法,通过3DFM提取几何线索并进行结构化提示,提升模型性能。
  3. 实验表明,该方法能够有效改善运动识别,并使VideoLLM的响应更具相机感知能力,无需昂贵的训练或微调。

📝 摘要(中文)

相机运动是影响视觉感知和电影风格的重要几何信号,但现有视频语言模型(VideoLLMs)很少显式地表示它,并且常常无法识别细粒度的运动原语。本文提出了一个包含基准测试、诊断和注入的框架来解决这个问题。我们构建了CameraMotionDataset,一个具有显式相机控制的大规模合成数据集,将相机运动建模为约束感知的多标签识别问题,并构建了一个VQA基准——CameraMotionVQA。在各种现成的VideoLLM上,我们观察到在识别相机运动原语方面存在大量错误。对Qwen2.5-VL视觉编码器的探测实验表明,相机运动线索的表示较弱,尤其是在较深的ViT块中,这有助于解释观察到的失败模式。为了在没有昂贵的训练或微调的情况下弥合这一差距,我们提出了一个轻量级的、模型无关的pipeline,该pipeline从3D基础模型(3DFM)中提取几何相机线索,使用时间分类器预测约束运动原语,并通过结构化提示将其注入到下游VideoLLM推理中。实验表明,运动识别得到了改善,并且模型响应对相机更加敏感,突出了几何驱动的线索提取和结构化提示作为实现相机感知VideoLLM和VLA系统的实用步骤。数据集和基准可在https://hf.co/datasets/fengyee/camera-motion-dataset-and-benchmark公开获取。

🔬 方法详解

问题定义:现有VideoLLM在理解和识别视频中的相机运动方面存在明显的不足。它们通常无法准确地识别细粒度的相机运动原语,例如推拉镜头、摇摄、倾斜等。这主要是因为现有的模型架构和训练方法没有充分地利用相机运动所蕴含的几何信息。现有方法缺乏对相机运动的显式建模,导致模型在处理与相机运动相关的视觉任务时表现不佳。

核心思路:本文的核心思路是通过显式地提取和注入相机运动的几何信息来增强VideoLLM的能力。具体来说,该方法利用3D基础模型(3DFM)来提取视频中的相机运动线索,然后将这些线索以结构化的方式注入到下游的VideoLLM中。这种方法的核心在于利用外部知识(3DFM)来弥补VideoLLM自身对相机运动理解的不足,从而提高其性能。

技术框架:该方法包含以下几个主要模块:1) 几何相机线索提取:利用3DFM从视频中提取相机运动的几何线索。2) 约束运动原语预测:使用时间分类器预测受约束的运动原语。3) 结构化提示注入:将提取的几何线索和预测的运动原语通过结构化提示的方式注入到下游VideoLLM的推理过程中。整个流程无需对VideoLLM进行训练或微调,具有良好的通用性和可扩展性。

关键创新:该方法最重要的技术创新点在于提出了一种轻量级的、模型无关的几何引导注入pipeline。与传统的需要大量训练数据和计算资源的微调方法不同,该方法通过利用3DFM和结构化提示,实现了在不改变VideoLLM模型结构和参数的情况下,显著提升其对相机运动的理解能力。这种方法为解决VideoLLM在几何理解方面的不足提供了一种新的思路。

关键设计:在几何相机线索提取方面,具体使用了哪个3DFM,如何提取几何特征,以及如何将这些特征表示为可供VideoLLM使用的形式,这些细节未明确说明。在结构化提示注入方面,如何设计提示的格式和内容,以及如何将提示与VideoLLM的输入进行融合,这些细节也未明确说明。时间分类器的具体结构和训练方式也未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法能够有效改善VideoLLM对相机运动的识别能力,并使其响应更具相机感知能力。具体性能提升数据和对比基线未在摘要中明确给出,但强调了在无需昂贵的训练或微调的情况下实现了性能提升。该方法在CameraMotionVQA基准测试上取得了显著的改进。

🎯 应用场景

该研究成果可应用于视频编辑、电影分析、机器人导航、自动驾驶等领域。通过提升VideoLLM对相机运动的理解,可以实现更智能的视频内容分析和生成,例如自动识别电影中的运镜手法,辅助机器人进行视觉定位和导航,以及提高自动驾驶系统对周围环境的感知能力。未来,该技术有望推动视频理解和人工智能的更广泛应用。

📄 摘要(原文)

Camera motion is a fundamental geometric signal that shapes visual perception and cinematic style, yet current video-capable vision-language models (VideoLLMs) rarely represent it explicitly and often fail on fine-grained motion primitives. We address this gap with a framework of $\textbf{benchmarking}$, $\textbf{diagnosis}$, and $\textbf{injection}$. We curate $\textbf{CameraMotionDataset}$, a large-scale synthetic dataset with explicit camera control, formulate camera motion as constraint-aware multi-label recognition, and construct a VQA benchmark--$\textbf{CameraMotionVQA}$. Across diverse off-the-shelf VideoLLMs, we observe substantial errors in recognizing camera motion primitives. Probing experiments on a Qwen2.5-VL vision encoder suggest that camera motion cues are weakly represented, especially in deeper ViT blocks, helping explain the observed failure modes. To bridge this gap without costly training or fine-tuning, we propose a lightweight, model-agnostic pipeline that extracts geometric camera cues from 3D foundation models (3DFMs), predicts constrained motion primitives with a temporal classifier, and injects them into downstream VideoLLM inference via structured prompting. Experiments demonstrate improved motion recognition and more camera-aware model responses, highlighting geometry-driven cue extraction and structured prompting as practical steps toward a camera-aware VideoLLM and VLA system. The dataset and benchmark is publicly available at https://hf.co/datasets/fengyee/camera-motion-dataset-and-benchmark.