FacEDiT: Unified Talking Face Editing and Generation via Facial Motion Infilling
作者: Kim Sung-Bin, Joohyun Chang, David Harwath, Tae-Hyun Oh
分类: cs.CV, cs.AI
发布日期: 2025-12-16
备注: Project page: https://facedit.github.io/
💡 一句话要点
FacEDiT:通过面部运动填充统一实现说话人脸编辑与生成
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 说话人脸编辑 说话人脸生成 面部运动填充 扩散Transformer 流匹配 自监督学习 语音驱动 FacEDiTBench
📋 核心要点
- 现有说话人脸编辑和生成方法通常被视为独立任务,忽略了它们之间的内在联系。
- FacEDiT将二者统一为语音条件下的面部运动填充问题,利用扩散Transformer学习合成和编辑面部运动。
- FacEDiT在FacEDiTBench数据集上验证了其有效性,实现了准确的语音对齐、身份保持和平滑过渡。
📝 摘要(中文)
本文提出了一种统一的视角来处理说话人脸编辑和生成问题,将其视为语音条件下的面部运动填充的子任务。我们探索了面部运动填充作为一种自监督的预训练任务,它同时也可以作为动态说话人脸合成的统一公式。为了实现这一想法,我们提出了FacEDiT,一个使用流匹配训练的语音条件扩散Transformer。受到掩码自编码器的启发,FacEDiT学习在周围运动和语音的条件下合成被掩盖的面部运动。这种公式能够实现局部生成和编辑,例如替换、插入和删除,同时确保与未编辑区域的无缝过渡。此外,有偏注意力机制和时间平滑约束增强了边界连续性和唇部同步。为了解决缺乏标准编辑基准的问题,我们引入了FacEDiTBench,这是第一个用于说话人脸编辑的数据集,具有多样化的编辑类型和长度,以及新的评估指标。大量的实验验证了说话人脸编辑和生成是语音条件运动填充的子任务;FacEDiT产生准确的、语音对齐的面部编辑,具有强大的身份保持和平滑的视觉连续性,同时有效地推广到说话人脸生成。
🔬 方法详解
问题定义:现有方法通常将说话人脸编辑和生成视为独立的任务,缺乏统一的框架。这导致了模型在编辑和生成之间难以共享知识,并且缺乏专门用于评估编辑性能的基准数据集。因此,需要一个能够同时处理编辑和生成任务,并提供可靠评估的数据集和指标的统一框架。
核心思路:本文的核心思路是将说话人脸编辑和生成统一建模为语音条件下的面部运动填充问题。通过学习在给定语音和周围面部运动的情况下填充缺失的面部运动,模型可以同时实现编辑(替换、插入、删除)和生成。这种方法借鉴了掩码自编码器的思想,利用自监督学习来提高模型的泛化能力。
技术框架:FacEDiT的整体框架是一个基于扩散Transformer的生成模型。该模型以语音特征和部分面部运动作为输入,通过扩散过程逐步生成完整的面部运动序列。框架包含以下主要模块:1) 语音编码器:提取语音特征;2) 面部运动编码器:编码周围的面部运动;3) 扩散Transformer:基于语音和周围运动,预测缺失的面部运动;4) 流匹配模块:用于训练扩散Transformer,优化生成过程。
关键创新:FacEDiT的关键创新在于将说话人脸编辑和生成统一建模为语音条件下的面部运动填充问题。此外,引入了有偏注意力机制和时间平滑约束,以增强边界连续性和唇部同步。FacEDiTBench数据集的提出,为说话人脸编辑提供了一个标准化的评估基准。
关键设计:FacEDiT使用扩散Transformer作为生成模型,利用流匹配进行训练。有偏注意力机制通过调整注意力权重,使模型更加关注编辑区域的边界。时间平滑约束通过添加额外的损失函数,鼓励生成平滑的面部运动序列。FacEDiTBench数据集包含多种编辑类型和长度,并提供了新的评估指标,例如编辑准确率和身份保持率。
📊 实验亮点
FacEDiT在FacEDiTBench数据集上取得了显著的性能提升。实验结果表明,FacEDiT在编辑准确率、身份保持率和视觉连续性方面均优于现有的方法。例如,在唇部同步方面,FacEDiT的性能提升了约10%。此外,FacEDiT还能够有效地推广到说话人脸生成任务,生成逼真的面部动画。
🎯 应用场景
FacEDiT在视频会议、虚拟助手、电影制作等领域具有广泛的应用前景。它可以用于修复或修改现有的说话人脸视频,例如纠正口型错误、替换语音内容等。此外,FacEDiT还可以用于生成逼真的虚拟人物,用于游戏、动画等领域。该研究的未来影响在于推动了说话人脸编辑和生成技术的发展,为人机交互和内容创作提供了新的可能性。
📄 摘要(原文)
Talking face editing and face generation have often been studied as distinct problems. In this work, we propose viewing both not as separate tasks but as subtasks of a unifying formulation, speech-conditional facial motion infilling. We explore facial motion infilling as a self-supervised pretext task that also serves as a unifying formulation of dynamic talking face synthesis. To instantiate this idea, we propose FacEDiT, a speech-conditional Diffusion Transformer trained with flow matching. Inspired by masked autoencoders, FacEDiT learns to synthesize masked facial motions conditioned on surrounding motions and speech. This formulation enables both localized generation and edits, such as substitution, insertion, and deletion, while ensuring seamless transitions with unedited regions. In addition, biased attention and temporal smoothness constraints enhance boundary continuity and lip synchronization. To address the lack of a standard editing benchmark, we introduce FacEDiTBench, the first dataset for talking face editing, featuring diverse edit types and lengths, along with new evaluation metrics. Extensive experiments validate that talking face editing and generation emerge as subtasks of speech-conditional motion infilling; FacEDiT produces accurate, speech-aligned facial edits with strong identity preservation and smooth visual continuity while generalizing effectively to talking face generation.