OmniSync: Towards Universal Lip Synchronization via Diffusion Transformers

📄 arXiv: 2505.21448v2 📥 PDF

作者: Ziqiao Peng, Jiwen Liu, Haoxian Zhang, Xiaoqiang Liu, Songlin Tang, Pengfei Wan, Di Zhang, Hongyan Liu, Jun He

分类: cs.CV

发布日期: 2025-05-27 (更新: 2025-09-18)

备注: Accepted as NeurIPS 2025 spotlight


💡 一句话要点

OmniSync:基于扩散Transformer的通用唇形同步框架,适用于多样化视觉场景

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱四:生成式动作 (Generative Motion) 支柱八:物理动画 (Physics-based Animation)

关键词: 唇形同步 扩散模型 Transformer 无掩码学习 AI生成内容

📋 核心要点

  1. 现有唇形同步方法依赖参考帧和掩码,在身份保持、姿态变化和遮挡等方面存在局限性,且易受原始视频唇形泄漏的影响。
  2. OmniSync采用无掩码扩散Transformer进行直接帧编辑,通过流匹配噪声初始化保证姿态和身份一致性,并利用动态时空无分类器引导增强音频条件。
  3. OmniSync在自建的AIGC-LipSync基准上,显著优于现有方法,在视觉质量和唇形同步准确性上均有提升,适用于真实和AI生成视频。

📝 摘要(中文)

本文提出OmniSync,一个用于多样化视觉场景的通用唇形同步框架。现有方法依赖参考帧和掩码帧修复,限制了其在身份一致性、姿势变化、面部遮挡和风格化内容方面的鲁棒性。此外,由于音频信号提供的条件弱于视觉线索,原始视频中的唇形泄漏会影响唇形同步质量。OmniSync采用无掩码训练范式,使用扩散Transformer模型进行直接帧编辑,无需显式掩码,从而实现无限时长的推理,同时保持自然的面部动态并保留角色身份。在推理过程中,提出了一种基于流匹配的渐进式噪声初始化,以确保姿势和身份一致性,同时允许精确的嘴部区域编辑。为了解决音频的弱条件信号问题,开发了一种动态时空无分类器引导(DS-CFG)机制,该机制可以自适应地调整时间和空间上的引导强度。此外,还建立了AIGC-LipSync基准,这是第一个用于评估各种AI生成视频中唇形同步的评估套件。大量实验表明,OmniSync在视觉质量和唇形同步准确性方面均显著优于现有方法,在真实世界和AI生成视频中均取得了优异的结果。

🔬 方法详解

问题定义:论文旨在解决现有唇形同步方法在处理多样化视觉场景时存在的鲁棒性问题。现有方法依赖于参考帧和掩码帧修复,这限制了它们在身份一致性、姿势变化、面部遮挡以及风格化内容方面的表现。此外,音频信号作为条件信息相对较弱,容易受到原始视频唇形信息泄露的影响,从而降低唇形同步的质量。

核心思路:论文的核心思路是利用扩散Transformer模型,通过无掩码的训练方式直接进行帧编辑,从而避免了对参考帧和显式掩码的依赖。同时,通过流匹配的渐进式噪声初始化来保证生成视频的姿势和身份一致性,并利用动态时空无分类器引导(DS-CFG)机制来增强音频信号的条件作用。

技术框架:OmniSync的整体框架包含一个扩散Transformer模型,该模型以音频特征和初始噪声图像作为输入,逐步去噪生成同步后的视频帧。推理阶段,首先使用流匹配方法生成初始噪声图像,以保证姿势和身份一致性。然后,扩散Transformer模型根据音频特征逐步去噪,生成最终的同步视频帧。DS-CFG机制在去噪过程中动态调整时间和空间上的引导强度,以增强音频信号的作用。

关键创新:论文的关键创新在于以下几点:1) 提出了无掩码的训练范式,避免了对显式掩码的依赖,提高了模型的泛化能力。2) 提出了基于流匹配的渐进式噪声初始化方法,保证了生成视频的姿势和身份一致性。3) 提出了动态时空无分类器引导(DS-CFG)机制,增强了音频信号的条件作用,提高了唇形同步的准确性。4) 构建了AIGC-LipSync基准,为评估AI生成视频中的唇形同步提供了标准。

关键设计:在流匹配噪声初始化中,使用了预训练的人脸识别模型来提取身份特征,并将其作为流匹配过程的约束条件。DS-CFG机制通过一个可学习的权重来动态调整时间和空间上的引导强度。损失函数包括L1损失、感知损失和对抗损失,以保证生成视频的视觉质量和真实感。扩散Transformer模型采用U-Net结构,并引入了注意力机制来增强模型对音频特征的感知能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

OmniSync在AIGC-LipSync基准测试中取得了显著的性能提升,在视觉质量和唇形同步准确性方面均优于现有方法。具体而言,OmniSync在多个指标上取得了超过10%的提升,证明了其在处理多样化视觉场景时的优越性。实验结果表明,OmniSync不仅适用于真实视频,也适用于AI生成的视频,具有很强的泛化能力。

🎯 应用场景

OmniSync具有广泛的应用前景,可用于虚拟主播、数字人、电影后期制作、游戏开发等领域。该技术能够提升AI生成内容的真实感和表现力,改善用户体验,并降低视频制作成本。未来,该技术有望应用于实时唇形同步、多语言配音等更复杂的场景。

📄 摘要(原文)

Lip synchronization is the task of aligning a speaker's lip movements in video with corresponding speech audio, and it is essential for creating realistic, expressive video content. However, existing methods often rely on reference frames and masked-frame inpainting, which limit their robustness to identity consistency, pose variations, facial occlusions, and stylized content. In addition, since audio signals provide weaker conditioning than visual cues, lip shape leakage from the original video will affect lip sync quality. In this paper, we present OmniSync, a universal lip synchronization framework for diverse visual scenarios. Our approach introduces a mask-free training paradigm using Diffusion Transformer models for direct frame editing without explicit masks, enabling unlimited-duration inference while maintaining natural facial dynamics and preserving character identity. During inference, we propose a flow-matching-based progressive noise initialization to ensure pose and identity consistency, while allowing precise mouth-region editing. To address the weak conditioning signal of audio, we develop a Dynamic Spatiotemporal Classifier-Free Guidance (DS-CFG) mechanism that adaptively adjusts guidance strength over time and space. We also establish the AIGC-LipSync Benchmark, the first evaluation suite for lip synchronization in diverse AI-generated videos. Extensive experiments demonstrate that OmniSync significantly outperforms prior methods in both visual quality and lip sync accuracy, achieving superior results in both real-world and AI-generated videos.