Portrait Video Editing Empowered by Multimodal Generative Priors

📄 arXiv: 2409.13591v1 📥 PDF

作者: Xuan Gao, Haiyao Xiao, Chenglai Zhong, Shimin Hu, Yudong Guo, Juyong Zhang

分类: cs.CV, cs.GR

发布日期: 2024-09-20

备注: Accepted by SIGGRAPH Asia 2024. Project Page: https://ustc3dv.github.io/PortraitGen/

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

PortraitGen:基于多模态生成先验的人像视频编辑方法,实现一致且富有表现力的风格化。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 人像视频编辑 多模态生成先验 动态3D高斯场 神经高斯纹理 风格迁移 时间一致性 快速渲染

📋 核心要点

  1. 传统人像视频编辑方法在3D和时间一致性上存在不足,渲染质量和效率也较低,难以满足高质量编辑需求。
  2. PortraitGen将视频帧提升到动态3D高斯场,并引入神经高斯纹理机制,保证了时间和结构一致性,并提升了渲染速度。
  3. 实验证明,该方法在时间一致性、编辑效率和渲染质量上均优于现有方法,并支持文本、图像驱动的编辑和光照调整。

📝 摘要(中文)

本文提出了一种强大的人像视频编辑方法PortraitGen,它可以通过多模态提示实现一致且富有表现力的风格化。传统的人像视频编辑方法通常在3D和时间一致性方面表现不佳,并且通常缺乏渲染质量和效率。为了解决这些问题,我们将人像视频帧提升到一个统一的动态3D高斯场,从而确保了跨帧的结构和时间连贯性。此外,我们设计了一种新颖的神经高斯纹理机制,该机制不仅可以实现复杂的风格编辑,还可以实现超过100FPS的渲染速度。我们的方法通过从大规模2D生成模型中提取的知识来整合多模态输入。我们的系统还结合了表情相似性指导和一个面部感知的人像编辑模块,有效地缓解了与迭代数据集更新相关的退化问题。大量的实验证明了我们方法的时间一致性、编辑效率和卓越的渲染质量。所提出的方法的广泛适用性通过各种应用得到证明,包括文本驱动的编辑、图像驱动的编辑和重新光照,突出了其在推进视频编辑领域的巨大潜力。演示视频和发布的代码在我们的项目页面中提供:https://ustc3dv.github.io/PortraitGen/

🔬 方法详解

问题定义:论文旨在解决人像视频编辑中3D和时间一致性差、渲染质量和效率低下的问题。现有方法难以保证编辑后视频的连贯性和真实感,限制了其应用范围。

核心思路:论文的核心思路是将人像视频帧表示为统一的动态3D高斯场,从而在底层保证结构和时间的一致性。同时,利用神经高斯纹理机制实现高效的风格编辑和渲染。通过从大规模2D生成模型中提取知识,实现多模态输入驱动的编辑。

技术框架:PortraitGen系统主要包含以下几个模块:1) 动态3D高斯场构建模块,用于将视频帧提升到3D空间;2) 神经高斯纹理模块,用于风格编辑和快速渲染;3) 多模态输入处理模块,利用知识蒸馏整合文本、图像等输入;4) 表情相似性指导模块,用于保持编辑前后表情的一致性;5) 面部感知编辑模块,用于精细化面部区域的编辑。

关键创新:该方法最重要的创新点在于将动态3D高斯场和神经高斯纹理相结合,实现了时间和结构一致的高质量人像视频编辑。与现有方法相比,该方法能够更好地处理视频帧之间的时间依赖关系,并实现更高效的渲染。

关键设计:神经高斯纹理模块的设计是关键。具体来说,该模块利用高斯分布来表示纹理信息,并通过神经网络学习高斯分布的参数,从而实现风格编辑。损失函数包括重建损失、风格损失和时间一致性损失等。表情相似性指导模块通过计算编辑前后人脸表情的相似度,并将其作为正则项加入损失函数中,以保证表情的一致性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,PortraitGen在时间一致性、编辑效率和渲染质量方面均优于现有方法。该方法能够以超过100FPS的速度进行渲染,并且能够生成具有高度一致性和真实感的人像视频。通过与其他方法的对比,证明了该方法在各种编辑任务中的优越性。

🎯 应用场景

该研究成果可广泛应用于电影制作、游戏开发、社交媒体等领域。例如,可以用于快速生成具有特定风格的人像视频,或者对现有视频进行风格迁移和编辑。此外,该技术还可以用于虚拟形象定制、视频会议美化等应用场景,具有很高的实际应用价值和商业潜力。

📄 摘要(原文)

We introduce PortraitGen, a powerful portrait video editing method that achieves consistent and expressive stylization with multimodal prompts. Traditional portrait video editing methods often struggle with 3D and temporal consistency, and typically lack in rendering quality and efficiency. To address these issues, we lift the portrait video frames to a unified dynamic 3D Gaussian field, which ensures structural and temporal coherence across frames. Furthermore, we design a novel Neural Gaussian Texture mechanism that not only enables sophisticated style editing but also achieves rendering speed over 100FPS. Our approach incorporates multimodal inputs through knowledge distilled from large-scale 2D generative models. Our system also incorporates expression similarity guidance and a face-aware portrait editing module, effectively mitigating degradation issues associated with iterative dataset updates. Extensive experiments demonstrate the temporal consistency, editing efficiency, and superior rendering quality of our method. The broad applicability of the proposed approach is demonstrated through various applications, including text-driven editing, image-driven editing, and relighting, highlighting its great potential to advance the field of video editing. Demo videos and released code are provided in our project page: https://ustc3dv.github.io/PortraitGen/