Auteur: Language-Driven Cinematographic Framing for Human-Centric Video Generation
作者: Muhammed Burak Kizil, Enes Sanli, Niloy J. Mitra, Xuelin Chen, Erkut Erdem, Aykut Erdem, Duygu Ceylan
分类: cs.CV
发布日期: 2026-06-01
💡 一句话要点
Auteur:提出语言驱动的电影级镜头控制方法,用于生成以人为中心的视频。
🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视频生成 相机控制 电影级镜头 语言驱动 人机交互
📋 核心要点
- 现有视频生成模型缺乏对相机运动的精确控制,导致生成的视频镜头随机且不一致。
- Auteur通过将镜头设计为人类姿势和运动的函数,并使用DSL进行参数化,实现了以人为中心的相机控制。
- 通过在包含34K对齐数据的全新数据集上训练和评估,Auteur在电影级取景方面超越了现有方法。
📝 摘要(中文)
生成式视频模型在视觉逼真度和时间连贯性方面取得了显著进展,但有意图的相机控制仍然难以实现。现有框架将相机运动视为像素合成的副产品,产生的轨迹是随机的、空间上不一致的,并且对驱动场景的人类主体漠不关心。本文提出了Auteur,一种用于生成视频中语言驱动的、以人为中心的相机取景方法。核心思想是,专业的电影制作人将镜头构思为相对于演员定义的取景,将镜头大小、角度和构图编码为人类姿势和运动的函数。我们将这种直觉形式化为以人为中心的相机参数化,并引入了一种领域特定语言(DSL),该语言可以转换为标准的6自由度相机参数。然后,经过微调的多模态大型语言模型充当虚拟导演,将自然语言描述和粗略的人类运动映射到稀疏的DSL关键帧,这些关键帧被确定性地插值为连续的相机轨迹,然后作为视频生成器的输入。我们在一个新的数据集上训练和评估Auteur,该数据集包含来自程序合成和CondensedMovies数据集中的真实电影片段的34K对齐文本、人类运动和DSL注释的相机轨迹。Auteur实现了以人为中心的场景的电影级取景,这是先前生成模型中很大程度上缺失的能力。为了评估这种行为,我们提出了新的以取景为中心的指标,实验表明Auteur始终优于现有方法。
🔬 方法详解
问题定义:现有生成视频模型在相机控制方面存在不足,生成的相机运动轨迹随机、空间不一致,并且忽略了场景中的人类主体。这导致生成的视频缺乏电影感和艺术性,难以满足特定场景的需求。现有方法通常将相机运动视为像素生成的副产品,缺乏对相机运动的精确控制和意图表达。
核心思路:Auteur的核心思路是将电影制作中专业的镜头设计理念融入到视频生成过程中。专业的电影制作人通常将镜头构思为相对于演员定义的取景,将镜头大小、角度和构图编码为人类姿势和运动的函数。Auteur将这种直觉形式化为以人为中心的相机参数化,并使用领域特定语言(DSL)来描述相机运动,从而实现对相机运动的精确控制和意图表达。
技术框架:Auteur的整体框架包含以下几个主要模块:1) 人类运动提取模块:从输入视频或动画中提取人类的姿势和运动信息。2) DSL关键帧生成模块:使用微调的多模态大型语言模型,将自然语言描述和粗略的人类运动映射到稀疏的DSL关键帧。3) 相机轨迹插值模块:将稀疏的DSL关键帧确定性地插值为连续的相机轨迹。4) 视频生成模块:将相机轨迹作为输入,生成最终的视频。
关键创新:Auteur最重要的技术创新点在于其以人为中心的相机参数化和DSL的使用。传统的相机参数化方法通常使用世界坐标系下的6自由度参数,难以直接表达镜头设计意图。Auteur的以人为中心的相机参数化方法将镜头设计与人类姿势和运动相关联,使得相机运动更加自然和符合电影制作的规律。DSL的使用使得用户可以使用自然语言来描述镜头设计意图,从而更加方便地控制相机运动。
关键设计:Auteur的关键设计包括:1) 以人为中心的相机参数化:使用相对坐标系来描述相机的位置和方向,使得相机运动与人类姿势和运动相关联。2) 领域特定语言(DSL):设计了一种专门用于描述相机运动的DSL,包含镜头大小、角度和构图等参数。3) 多模态大型语言模型:使用经过微调的多模态大型语言模型,将自然语言描述和粗略的人类运动映射到DSL关键帧。4) 数据集:构建了一个包含34K对齐文本、人类运动和DSL注释的相机轨迹的数据集,用于训练和评估Auteur。
🖼️ 关键图片
📊 实验亮点
Auteur在新的以取景为中心的指标上进行了评估,实验结果表明Auteur始终优于现有方法。具体来说,Auteur在镜头设计的自然性、一致性和意图表达方面都取得了显著的提升。此外,Auteur还能够生成具有电影感的视频,为用户提供更好的视觉体验。
🎯 应用场景
Auteur具有广泛的应用前景,例如:1) 虚拟电影制作:可以用于自动生成电影镜头,提高电影制作效率。2) 游戏开发:可以用于自动生成游戏中的过场动画,增强游戏的沉浸感。3) 虚拟现实:可以用于生成虚拟现实场景中的相机运动,提高用户的体验。4) 教育培训:可以用于生成教学视频,帮助学生更好地理解知识。
📄 摘要(原文)
Generative video models have achieved remarkable visual fidelity and temporal coherence, yet intentional camera control remains elusive. Existing frameworks treat camera motion as a byproduct of pixel synthesis, producing trajectories that are stochastic, spatially inconsistent, and indifferent to the human subject driving the scene. In this work, we present Auteur, a method for language-driven, human-centric camera framing in generative video. Our core insight is that professional filmmakers conceive shots not as world-space trajectories but as framings defined relative to the actor, encoding shot size, angle, and composition as functions of human pose and motion. We formalize this intuition as a human-centric camera parameterization and introduce a Domain-Specific Language (DSL) that is convertible to standard 6-DoF camera parameters. A fine-tuned multimodal large language model then acts as a virtual director, mapping natural language descriptions and coarse human motion to sparse DSL keyframes that are deterministically interpolated into continuous camera trajectories, which are then provided as input to video generators. We train and evaluate Auteur on a new dataset of 34K aligned text, human motion, and DSL-annotated camera trajectories drawn from procedural synthesis and real-world movie footage from the CondensedMovies dataset. Auteur enables cinematographic framing of human-centered scenes, a capability largely absent in prior generative models. To assess this behavior, we propose new framing-focused metrics, and our experiments show that Auteur consistently outperforms existing methods