CRePE: Curved Ray Expectation Positional Encoding for Unified-Camera-Controlled Video Generation

📄 arXiv: 2605.12938v1 📥 PDF

作者: Seonghyun Jin, Youngmin Kim, Sunwoo Park, Jong Chul Ye

分类: cs.CV, cs.AI, cs.LG

发布日期: 2026-05-13

备注: 17 pages, 8 figures, Under review


💡 一句话要点

提出CRePE,用于统一相机模型控制的视频生成,提升几何感知能力。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视频生成 相机控制 位置编码 统一相机模型 深度感知

📋 核心要点

  1. 现有相机控制视频生成方法在处理广角和鱼眼镜头等统一相机模型时存在局限性,无法有效编码相机参数。
  2. CRePE通过将图像token表示为源射线上的深度感知位置分布,实现了与统一相机模型兼容的位置编码。
  3. 实验表明,CRePE在相机控制稳定性、几何感知和感知质量方面均有提升,并在视频质量上保持竞争力。

📝 摘要(中文)

相机条件下的视频生成需要位置编码,使其在相机运动、镜头配置和场景结构变化下保持可靠性。然而,现有的注意力级别相机编码要么仅提供射线相机信号,要么依赖于针孔相机几何,限制了它们在统一相机模型下的通用相机控制应用,包括广角和鱼眼镜头。为了解决这个限制,我们提出了弯曲射线期望位置编码(CRePE)。CRePE将每个图像token表示为其源射线上的深度感知位置分布,提供了一种统一相机模型兼容的位置编码,该编码捕获了由广角和鱼眼相机引起的投影路径几何。CRePE通过添加到冻结视频DiT的几何注意力适配器来实现,将token级别的场景距离信息注入到选定的注意力层中,并通过来自单目几何基础模型的伪监督来稳定它。这种设计带来了更稳定的相机控制,并提高了几个几何感知和感知质量指标,同时在视频质量指标上保持竞争力。受控的位置编码消融实验表明,其总体平均排名优于RayRoPE风格的端点PE基线,证明了UCM感知的投影路径集成在各种相机模型中的有效性。此外,通过将相同的位置编码路径扩展到通过径向MixForcing的外部几何控制,CRePE支持用于场景几何条件生成的外部径向图控制和超出相机控制的源视频运动传递。

🔬 方法详解

问题定义:现有基于相机控制的视频生成方法,特别是基于注意力机制的方法,在处理非针孔相机模型(如广角和鱼眼镜头)时,由于相机参数编码方式的限制,难以实现精确的相机控制和高质量的视频生成。现有的方法要么只考虑射线方向信息,要么依赖于针孔相机模型,无法有效捕捉广角和鱼眼镜头带来的图像畸变和投影关系。

核心思路:CRePE的核心思路是将图像中的每个token视为沿着其对应射线的一个深度感知的概率分布。这种分布能够更好地表示token在三维空间中的位置,并且能够适应不同相机模型的投影特性。通过对这条“弯曲”的射线进行积分,得到一个期望位置编码,从而实现对统一相机模型的兼容。

技术框架:CRePE通过一个几何注意力适配器(Geometric Attention Adapter)集成到预训练的视频扩散模型(DiT)中。该适配器将token级别的场景距离信息注入到DiT的注意力层中,从而影响视频生成的注意力权重。为了稳定训练过程,CRePE还使用了来自单目几何基础模型的伪监督信号。整体流程包括:输入相机参数和噪声,通过DiT生成视频,CRePE在注意力层注入位置信息,并使用伪监督信号进行训练。

关键创新:CRePE的关键创新在于提出了弯曲射线期望位置编码(Curved Ray Expectation Positional Encoding)的概念,它是一种与统一相机模型兼容的位置编码方法。与传统的基于端点的位置编码方法不同,CRePE考虑了射线上的深度分布,从而能够更好地捕捉广角和鱼眼镜头带来的图像畸变和投影关系。此外,通过几何注意力适配器和伪监督信号,CRePE能够有效地将位置信息集成到视频生成模型中。

关键设计:CRePE的关键设计包括:1) 使用高斯分布来表示射线上的深度分布,并通过可学习的参数来控制分布的均值和方差。2) 使用数值积分方法来计算期望位置编码。3) 设计了几何注意力适配器,用于将位置信息注入到DiT的注意力层中。4) 使用单目几何基础模型(如DPT)来生成伪深度图,并将其作为伪监督信号来稳定训练过程。此外,CRePE还引入了Radial MixForcing,用于支持外部径向图控制,从而实现场景几何条件生成和源视频运动传递。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,CRePE在相机控制稳定性、几何感知和感知质量方面均优于现有方法。例如,在相机姿态控制方面,CRePE能够生成更稳定的视频,避免了相机抖动和视角跳变等问题。在几何感知方面,CRePE能够更好地捕捉场景的深度信息,从而生成更逼真的视频。此外,CRePE在视频质量指标(如FID和KID)上与现有方法相比具有竞争力,并且在受控的位置编码消融实验中,总体平均排名优于RayRoPE风格的端点PE基线。

🎯 应用场景

CRePE具有广泛的应用前景,包括虚拟现实、增强现实、游戏开发、电影制作等领域。它可以用于生成具有逼真相机运动和视角变化的视频内容,例如,可以模拟无人机航拍视频,或者生成具有鱼眼镜头效果的创意视频。此外,CRePE还可以用于视频编辑和特效制作,例如,可以将一个视频的运动风格迁移到另一个视频上。

📄 摘要(原文)

Camera-conditioned video generation requires positional encoding that remains reliable under changes in camera motion, lens configuration, and scene structure. However, existing attention-level camera encodings either provide ray-only camera signals or rely on pinhole camera geometry, limiting their applicability to general camera control under the Unified Camera Model, including wide-angle and fisheye lenses. To address this limitation, we propose Curved Ray Expectation Positional Encoding (CRePE). CRePE represents each image token as a depth-aware positional distribution along its source ray, providing a Unified Camera Model-compatible positional encoding that captures the projected-path geometry induced by wide-angle and fisheye cameras. CRePE is implemented through a Geometric Attention Adapter added to frozen video DiTs, injecting token-wise scene-distance information into selected attention layers and stabilizing it with pseudo supervision from a monocular geometry foundation model. This design leads to more stable camera control and improves several geometry-aware and perceptual-quality metrics, while remaining competitive on video-quality metrics. Controlled positional-encoding ablations show a better overall average rank than a RayRoPE-style endpoint PE baseline, demonstrating the effectiveness of UCM-aware projected-path integration across diverse camera models. Furthermore, by extending the same positional-encoding pathway to external geometry control through Radial MixForcing, CRePE supports external radial-map control for scene-geometry-conditioned generation and source-video motion transfer beyond camera control.