Virtually Being: Customizing Camera-Controllable Video Diffusion Models with Multi-View Performance Captures

作者: Yuancheng Xu, Wenqi Xian, Li Ma, Julien Philip, Ahmet Levent Taşel, Yiwei Zhao, Ryan Burgert, Mingming He, Oliver Hermann, Oliver Pilarski, Rahul Garg, Paul Debevec, Ning Yu

分类: cs.CV, cs.AI

发布日期: 2025-10-16

备注: Accepted to SIGGRAPH Asia 2025

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

提出基于多视角表演捕捉的视频扩散模型定制框架，实现相机可控和角色一致性。

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 视频扩散模型 多视角一致性 相机控制 虚拟制作 4D高斯溅射 视频光照重构 角色定制

📋 核心要点

现有视频扩散模型在多视角一致性和相机控制方面存在不足，难以满足虚拟制作的需求。
论文提出一种基于多视角表演捕捉的定制数据流程，微调视频扩散模型，实现角色一致性和相机控制。
实验表明，该方法提高了视频质量、个性化准确性，并增强了相机控制和光照适应性。

📝 摘要（中文）

本文介绍了一个框架，该框架通过一种新颖的定制数据流程，在视频扩散模型中实现多视角角色一致性和3D相机控制。我们使用通过4D高斯溅射（4DGS）重新渲染的体积捕获表演记录来训练角色一致性组件，这些记录具有不同的相机轨迹，并通过视频光照重构模型获得光照变化。我们在此数据上微调最先进的开源视频扩散模型，以提供强大的多视角身份保持、精确的相机控制和光照适应性。我们的框架还支持虚拟制作的核心功能，包括使用两种方法进行多主体生成：联合训练和噪声混合，后者能够在推理时有效组合独立定制的模型；它还实现了场景和真实生活视频的定制，以及在定制期间对运动和空间布局的控制。大量实验表明，视频质量得到改善，个性化准确性更高，相机控制和光照适应性得到增强，从而推动了视频生成与虚拟制作的集成。我们的项目页面位于：https://eyeline-labs.github.io/Virtually-Being。

🔬 方法详解

问题定义：现有视频扩散模型在虚拟制作中面临挑战，尤其是在保持多视角角色一致性和实现精确相机控制方面。现有的方法难以在生成过程中保证角色在不同视角下的一致性，并且缺乏对相机运动的精细控制，限制了其在虚拟制作中的应用。

核心思路：论文的核心思路是通过定制化的数据流程来微调视频扩散模型，使其能够学习到多视角角色一致性和相机控制。通过使用多视角表演捕捉数据，并结合4D高斯溅射和视频光照重构技术，生成具有丰富视角和光照变化的数据集，从而提升模型的泛化能力和控制能力。

技术框架：该框架主要包含以下几个模块：1) 多视角表演捕捉：使用多相机系统记录角色的表演数据。2) 4D高斯溅射（4DGS）：利用4DGS技术，将捕捉到的表演数据渲染成具有不同相机轨迹的视频。3) 视频光照重构：使用视频光照重构模型，为渲染的视频添加光照变化。4) 视频扩散模型微调：使用生成的数据集微调现有的视频扩散模型。5) 多主体生成：支持联合训练和噪声混合两种方法，实现多主体生成。

关键创新：该论文的关键创新在于提出了一种定制化的数据流程，该流程能够生成高质量的多视角、多光照的训练数据，从而有效地提升视频扩散模型在角色一致性和相机控制方面的性能。此外，噪声混合方法能够在推理时高效地组合独立定制的模型，为多主体生成提供了新的思路。

关键设计：在数据生成方面，使用了4D高斯溅射技术来渲染不同相机轨迹的视频，并使用视频光照重构模型来添加光照变化。在模型微调方面，选择了最先进的开源视频扩散模型作为基础模型，并针对多视角一致性和相机控制进行了优化。在多主体生成方面，噪声混合方法通过在噪声空间中混合不同角色的特征，实现了高效的组合。

📊 实验亮点

实验结果表明，该方法在视频质量、个性化准确性、相机控制和光照适应性方面均优于现有方法。通过定量评估和定性比较，证明了该框架能够有效地提升视频扩散模型在虚拟制作中的性能。尤其是在多视角一致性方面，该方法取得了显著的提升。

🎯 应用场景

该研究成果可广泛应用于虚拟制作、游戏开发、电影特效等领域。通过该框架，用户可以轻松定制具有多视角一致性和相机可控性的虚拟角色，并将其集成到各种虚拟场景中，从而提升虚拟制作的效率和质量。此外，该技术还可以用于生成逼真的数字替身，应用于远程会议、虚拟社交等场景。

📄 摘要（原文）

We introduce a framework that enables both multi-view character consistency and 3D camera control in video diffusion models through a novel customization data pipeline. We train the character consistency component with recorded volumetric capture performances re-rendered with diverse camera trajectories via 4D Gaussian Splatting (4DGS), lighting variability obtained with a video relighting model. We fine-tune state-of-the-art open-source video diffusion models on this data to provide strong multi-view identity preservation, precise camera control, and lighting adaptability. Our framework also supports core capabilities for virtual production, including multi-subject generation using two approaches: joint training and noise blending, the latter enabling efficient composition of independently customized models at inference time; it also achieves scene and real-life video customization as well as control over motion and spatial layout during customization. Extensive experiments show improved video quality, higher personalization accuracy, and enhanced camera control and lighting adaptability, advancing the integration of video generation into virtual production. Our project page is available at: https://eyeline-labs.github.io/Virtually-Being.

Virtually Being: Customizing Camera-Controllable Video Diffusion Models with Multi-View Performance Captures

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册