Seeing without Pixels: Perception from Camera Trajectories

📄 arXiv: 2511.21681v1 📥 PDF

作者: Zihui Xue, Kristen Grauman, Dima Damen, Andrew Zisserman, Tengda Han

分类: cs.CV

发布日期: 2025-11-26

备注: Project website: https://sites.google.com/view/seeing-without-pixels


💡 一句话要点

仅凭相机轨迹感知视频内容:提出CamFormer对比学习框架

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知 (Perception & SLAM)

关键词: 相机轨迹 视频理解 对比学习 Transformer 跨模态对齐

📋 核心要点

  1. 现有方法依赖像素信息进行视频内容理解,忽略了相机运动轨迹中蕴含的信息。
  2. 提出CamFormer,通过对比学习将相机轨迹编码到联合嵌入空间,与自然语言对齐,从而理解视频内容。
  3. 实验表明,CamFormer在跨模态对齐、分类和时间分析等任务上表现出色,且对不同相机姿态估计方法具有鲁棒性。

📝 摘要(中文)

本文首次系统性地研究了一个看似不可能的问题:仅通过相机轨迹(即相机在空间中移动的路径)而非像素来感知视频内容。为此,我们提出了一个对比学习框架来训练CamFormer,一个专门的编码器,用于将相机姿态轨迹投影到一个联合嵌入空间,并使其与自然语言对齐。我们发现,与表面上的简单性相反,相机轨迹是揭示视频内容的一个非常丰富的信息来源。换句话说,“你的移动方式”确实可以揭示“你在做什么”(以自我为中心)或“在观察什么”(以外部为中心)。我们在一系列不同的下游任务中展示了我们学习到的CamFormer嵌入的多功能性,从跨模态对齐到分类和时间分析。重要的是,我们的表示在不同的相机姿态估计方法中具有鲁棒性,包括高保真多传感器和标准RGB-only估计器。我们的发现确立了相机轨迹作为一种轻量级、鲁棒且通用的感知视频内容的方式。

🔬 方法详解

问题定义:现有视频内容理解方法主要依赖于像素信息,忽略了相机运动轨迹所蕴含的丰富信息。如何仅通过相机轨迹来感知视频内容,是一个具有挑战性的问题。现有方法无法有效利用相机轨迹信息进行视频理解,缺乏有效的轨迹编码和表示学习方法。

核心思路:论文的核心思路是利用相机轨迹作为一种独立的模态,通过学习相机轨迹的嵌入表示来理解视频内容。通过对比学习,将相机轨迹的嵌入表示与自然语言描述对齐,从而建立相机运动与视频语义之间的联系。这种方法无需直接分析像素信息,降低了计算复杂度,并提供了一种新的视频理解视角。

技术框架:CamFormer框架主要包含以下几个模块:1) 相机姿态估计模块:用于从视频中提取相机轨迹;2) 轨迹编码器:CamFormer,用于将相机轨迹编码成嵌入向量;3) 自然语言编码器:用于将文本描述编码成嵌入向量;4) 对比学习模块:通过对比学习损失,将相机轨迹嵌入向量与对应的文本描述嵌入向量拉近,与其他文本描述的嵌入向量推远。整体流程是,给定视频,首先提取相机轨迹,然后使用CamFormer将其编码成嵌入向量,再通过对比学习与自然语言描述对齐。

关键创新:最重要的技术创新点在于提出了CamFormer,一个专门用于编码相机轨迹的Transformer模型。与传统的视频理解方法不同,CamFormer直接处理相机轨迹数据,无需像素信息。此外,通过对比学习,将相机轨迹嵌入与自然语言描述对齐,实现了跨模态的视频理解。

关键设计:CamFormer采用Transformer架构,输入是相机姿态序列。损失函数采用对比学习损失,例如InfoNCE loss,旨在最大化正样本(相机轨迹与其对应的文本描述)之间的互信息,最小化负样本之间的互信息。相机姿态估计可以使用不同的方法,包括基于多传感器融合的方法和基于RGB图像的方法。论文验证了CamFormer对不同相机姿态估计方法的鲁棒性。

📊 实验亮点

实验结果表明,CamFormer在跨模态对齐、视频分类和时间分析等任务上取得了显著的性能。例如,在跨模态检索任务中,CamFormer能够准确地将相机轨迹与对应的文本描述匹配。此外,CamFormer对不同的相机姿态估计方法具有鲁棒性,即使使用基于RGB图像的姿态估计方法,也能取得良好的性能。

🎯 应用场景

该研究成果可应用于机器人导航、自动驾驶、视频监控等领域。例如,机器人可以仅通过自身的运动轨迹来理解周围环境,自动驾驶系统可以通过分析其他车辆的运动轨迹来预测其行为,视频监控系统可以通过分析摄像头的运动轨迹来识别异常事件。该研究为轻量级、鲁棒的视频理解提供了一种新的途径。

📄 摘要(原文)

Can one perceive a video's content without seeing its pixels, just from the camera trajectory-the path it carves through space? This paper is the first to systematically investigate this seemingly implausible question. Towards this end, we propose a contrastive learning framework to train CamFormer, a dedicated encoder that projects camera pose trajectories into a joint embedding space, aligning them with natural language. We find that, contrary to its apparent simplicity, the camera trajectory is a remarkably informative signal to uncover video content. In other words, "how you move" can indeed reveal "what you are doing" (egocentric) or "observing" (exocentric). We demonstrate the versatility of our learned CamFormer embeddings on a diverse suite of downstream tasks, ranging from cross-modal alignment to classification and temporal analysis. Importantly, our representations are robust across diverse camera pose estimation methods, including both high-fidelity multi-sensored and standard RGB-only estimators. Our findings establish camera trajectory as a lightweight, robust, and versatile modality for perceiving video content.