PosePilot: Steering Camera Pose for Generative World Models with Self-supervised Depth

📄 arXiv: 2505.01729v2 📥 PDF

作者: Bu Jin, Weize Li, Baihan Yang, Zhenxin Zhu, Junpeng Jiang, Huan-ang Gao, Haiyang Sun, Kun Zhan, Hengtong Hu, Xueyang Zhang, Peng Jia, Hao Zhao

分类: cs.CV

发布日期: 2025-05-03 (更新: 2025-07-18)

备注: Accepted at IEEE/RSJ IROS 2025


💡 一句话要点

PosePilot:利用自监督深度信息,提升生成世界模型中相机姿态的可控性

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics) 支柱七:动作重定向 (Motion Retargeting)

关键词: 相机姿态控制 生成世界模型 自监督深度估计 运动结构恢复 视点合成

📋 核心要点

  1. 世界模型在自动驾驶系统中展现出潜力,但在复杂场景下,精确灵活的相机姿态控制仍然是关键挑战。
  2. PosePilot利用自监督深度估计,通过运动结构恢复建立相机姿态与视频生成的紧密联系,提升姿态控制。
  3. 实验表明,PosePilot显著增强了世界模型的结构理解和运动推理能力,为姿态可控性设立新基准。

📝 摘要(中文)

本文提出PosePilot,一个轻量级但功能强大的框架,旨在显著增强生成世界模型中相机姿态的可控性。PosePilot从自监督深度估计中获得灵感,利用运动结构恢复原理,在相机姿态和视频生成之间建立紧密耦合。具体来说,模型集成了自监督深度和姿态读取,可以直接从视频序列中推断深度和相对相机运动。这些输出驱动姿态感知的帧扭曲,并由光度扭曲损失引导,从而在合成帧之间强制执行几何一致性。为了进一步优化相机姿态估计,引入了反向扭曲步骤和姿态回归损失,提高了视点精度和适应性。在自动驾驶和通用视频数据集上的大量实验表明,PosePilot显著增强了基于扩散和自回归世界模型中的结构理解和运动推理能力。通过利用自监督深度控制相机姿态,PosePilot为姿态可控性树立了新的基准,从而在生成世界模型中实现物理一致、可靠的视点合成。

🔬 方法详解

问题定义:现有生成世界模型在自动驾驶等复杂场景中,难以实现精确和灵活的相机姿态控制,导致视点变换不准确,场景动态模拟不真实。现有方法缺乏对场景几何结构的有效理解,无法保证生成视频的物理一致性。

核心思路:PosePilot的核心思路是利用自监督深度估计,从视频序列中学习场景的几何结构和相机运动信息,并将这些信息融入到生成世界模型的训练过程中。通过建立相机姿态与视频生成之间的紧密耦合,实现对相机姿态的精确控制,从而生成更真实、更物理一致的视频。

技术框架:PosePilot框架主要包含以下几个模块:1) 自监督深度和姿态估计模块:从视频序列中估计深度图和相对相机运动。2) 姿态感知帧扭曲模块:根据估计的深度和姿态信息,对帧进行扭曲,实现视点变换。3) 光度扭曲损失:用于约束扭曲后的帧与目标帧之间的光度一致性,保证几何一致性。4) 反向扭曲和姿态回归损失:进一步优化相机姿态估计,提高视点精度。整体流程是,输入视频序列,首先进行自监督深度和姿态估计,然后利用估计的深度和姿态进行帧扭曲,并通过光度扭曲损失和姿态回归损失进行优化。

关键创新:PosePilot的关键创新在于将自监督深度估计与生成世界模型相结合,实现了对相机姿态的精确控制。与现有方法相比,PosePilot能够直接从视频序列中学习场景的几何结构和相机运动信息,无需额外的传感器或标注数据。此外,PosePilot还引入了反向扭曲和姿态回归损失,进一步提高了视点精度。

关键设计:PosePilot的关键设计包括:1) 自监督深度估计网络的选择:可以使用现有的自监督深度估计网络,如SfMLearner。2) 光度扭曲损失的定义:可以使用L1损失或SSIM损失。3) 姿态回归损失的定义:可以使用L2损失。4) 反向扭曲的实现:可以使用双线性插值等方法。5) 各个损失函数的权重设置:需要根据具体数据集进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

PosePilot在自动驾驶和通用视频数据集上进行了广泛的实验,结果表明,PosePilot显著增强了基于扩散和自回归世界模型中的结构理解和运动推理能力。具体来说,PosePilot在视点合成任务上取得了显著的提升,生成的视频更加真实、更加物理一致。实验结果表明,PosePilot为姿态可控性树立了新的基准。

🎯 应用场景

PosePilot在自动驾驶、机器人导航、虚拟现实和增强现实等领域具有广泛的应用前景。它可以用于生成更逼真的驾驶模拟环境,提高自动驾驶系统的鲁棒性和泛化能力。此外,PosePilot还可以用于机器人导航,帮助机器人更好地理解周围环境,实现更精确的定位和导航。在虚拟现实和增强现实领域,PosePilot可以用于生成更沉浸式的体验。

📄 摘要(原文)

Recent advancements in autonomous driving (AD) systems have highlighted the potential of world models in achieving robust and generalizable performance across both ordinary and challenging driving conditions. However, a key challenge remains: precise and flexible camera pose control, which is crucial for accurate viewpoint transformation and realistic simulation of scene dynamics. In this paper, we introduce PosePilot, a lightweight yet powerful framework that significantly enhances camera pose controllability in generative world models. Drawing inspiration from self-supervised depth estimation, PosePilot leverages structure-from-motion principles to establish a tight coupling between camera pose and video generation. Specifically, we incorporate self-supervised depth and pose readouts, allowing the model to infer depth and relative camera motion directly from video sequences. These outputs drive pose-aware frame warping, guided by a photometric warping loss that enforces geometric consistency across synthesized frames. To further refine camera pose estimation, we introduce a reverse warping step and a pose regression loss, improving viewpoint precision and adaptability. Extensive experiments on autonomous driving and general-domain video datasets demonstrate that PosePilot significantly enhances structural understanding and motion reasoning in both diffusion-based and auto-regressive world models. By steering camera pose with self-supervised depth, PosePilot sets a new benchmark for pose controllability, enabling physically consistent, reliable viewpoint synthesis in generative world models.