VERTIGO: Visual Preference Optimization for Cinematic Camera Trajectory Generation

📄 arXiv: 2604.02467 📥 PDF

作者: Mengtian Li, Yuwei Lu, Feifei Li, Chenqi Gan, Zhifeng Xie, Xi Wang

分类: cs.CV, cs.AI

发布日期: 2026-04-06


💡 一句话要点

VERTIGO:面向电影摄像机轨迹生成的视觉偏好优化框架

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 摄像机轨迹生成 视觉偏好优化 视觉-语言模型 直接偏好优化 电影制作 实时渲染

📋 核心要点

  1. 现有生成式摄像机系统缺乏“导演在环”的反馈机制,无法有效监督镜头的视觉吸引力,导致构图不佳等问题。
  2. VERTIGO框架利用视觉-语言模型对渲染的2D视觉预览进行评分,通过直接偏好优化(DPO)进行后训练,从而优化摄像机轨迹。
  3. 实验结果表明,VERTIGO显著降低了角色出画率,并在构图、一致性、提示遵循和美学质量方面优于现有方法。

📝 摘要(中文)

电影摄像机控制依赖于导演和摄影师之间的紧密反馈循环,摄像机运动和构图需要不断审查和改进。现有的生成式摄像机系统可以生成多样化的、文本条件下的轨迹,但缺乏这种“导演在环”的机制,并且没有对镜头是否具有视觉吸引力进行明确的监督。这导致了符合分布的摄像机运动,但构图不佳、角色出画以及不良的视觉美学。本文提出了VERTIGO,这是第一个用于摄像机轨迹生成器的视觉偏好优化框架。该框架利用实时图形引擎(Unity)从生成的摄像机运动中渲染2D视觉预览。然后,一个经过电影微调的视觉-语言模型使用我们提出的循环语义相似性机制对这些预览进行评分,该机制将渲染与文本提示对齐。此过程为直接偏好优化(DPO)后训练提供视觉偏好信号。在Unity渲染和基于扩散的Camera-to-Video流程上的定量评估和用户研究均显示,在条件一致性、构图质量和感知真实感方面均有持续提升。值得注意的是,VERTIGO将角色出画率从38%降低到接近0%,同时保留了摄像机运动的几何保真度。用户研究参与者更喜欢VERTIGO,因为它在构图、一致性、提示遵循和美学质量方面优于基线,证实了视觉偏好后训练的感知优势。

🔬 方法详解

问题定义:论文旨在解决电影摄像机轨迹生成中,现有方法缺乏对视觉质量的有效监督,导致生成的轨迹虽然运动合理,但构图不佳、角色容易出画等问题。现有方法无法模拟导演和摄影师之间的反馈循环,缺乏对视觉偏好的建模。

核心思路:论文的核心思路是通过引入视觉偏好优化,模拟“导演在环”的反馈机制。具体来说,利用视觉-语言模型对生成的摄像机轨迹渲染的视觉预览进行评分,并将这些评分作为偏好信号,用于优化摄像机轨迹生成器。这样可以显式地监督生成的轨迹是否具有视觉吸引力,从而改善构图和避免角色出画等问题。

技术框架:VERTIGO框架包含以下主要模块:1) 摄像机轨迹生成器:生成初始的摄像机轨迹。2) 实时渲染引擎(Unity):将摄像机轨迹渲染成2D视觉预览。3) 视觉-语言模型:对视觉预览进行评分,评估其与文本提示的语义相似性。4) 直接偏好优化(DPO):利用视觉偏好信号对摄像机轨迹生成器进行后训练。整体流程是:生成轨迹 -> 渲染预览 -> 视觉评分 -> 偏好优化。

关键创新:VERTIGO的关键创新在于引入了视觉偏好优化,将视觉质量作为显式的优化目标。此外,论文提出了循环语义相似性机制,用于更准确地评估视觉预览与文本提示的语义一致性。这是第一个将视觉偏好学习应用于摄像机轨迹生成的框架。

关键设计:论文使用Unity作为实时渲染引擎,生成高质量的视觉预览。视觉-语言模型采用经过电影微调的模型,以更好地理解电影语言和视觉风格。循环语义相似性机制通过计算渲染图像和文本提示之间的余弦相似度来评估语义一致性。DPO损失函数用于优化摄像机轨迹生成器,使其生成的轨迹更符合视觉偏好。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,VERTIGO显著降低了角色出画率,从38%降低到接近0%。用户研究表明,VERTIGO在构图、一致性、提示遵循和美学质量方面均优于基线方法。在Camera-to-Video任务中,VERTIGO也取得了显著的性能提升,验证了其在实际应用中的有效性。

🎯 应用场景

VERTIGO框架可应用于电影制作、游戏开发、虚拟现实等领域,用于自动生成高质量的摄像机轨迹。它可以帮助导演和摄影师快速探索不同的拍摄方案,提高工作效率,并降低制作成本。未来,该技术有望进一步发展,实现更加智能化的摄像机控制和视觉叙事。

📄 摘要(原文)

Cinematic camera control relies on a tight feedback loop between director and cinematographer, where camera motion and framing are continuously reviewed and refined. Recent generative camera systems can produce diverse, text-conditioned trajectories, but they lack this "director in the loop" and have no explicit supervision of whether a shot is visually desirable. This results in in-distribution camera motion but poor framing, off-screen characters, and undesirable visual aesthetics. In this paper, we introduce VERTIGO, the first framework for visual preference optimization of camera trajectory generators. Our framework leverages a real-time graphics engine (Unity) to render 2D visual previews from generated camera motion. A cinematically fine-tuned vision-language model then scores these previews using our proposed cyclic semantic similarity mechanism, which aligns renders with text prompts. This process provides the visual preference signals for Direct Preference Optimization (DPO) post-training. Both quantitative evaluations and user studies on Unity renders and diffusion-based Camera-to-Video pipelines show consistent gains in condition adherence, framing quality, and perceptual realism. Notably, VERTIGO reduces the character off-screen rate from 38% to nearly 0% while preserving the geometric fidelity of camera motion. User study participants further prefer VERTIGO over baselines across composition, consistency, prompt adherence, and aesthetic quality, confirming the perceptual benefits of our visual preference post-training.