FADA: Fast Diffusion Avatar Synthesis with Mixed-Supervised Multi-CFG Distillation
作者: Tianyun Zhong, Chao Liang, Jianwen Jiang, Gaojie Lin, Jiaqi Yang, Zhou Zhao
分类: cs.CV, cs.AI, cs.GR, cs.SD, eess.AS
发布日期: 2024-12-22 (更新: 2025-04-04)
备注: CVPR 2025, Homepage https://fadavatar.github.io/
💡 一句话要点
提出FADA,通过混合监督和多CFG蒸馏加速音频驱动的逼真数字人合成。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 数字人合成 扩散模型 模型蒸馏 混合监督学习 条件引导 音频驱动 快速推理
📋 核心要点
- 现有基于扩散模型的数字人方法推理速度慢,难以实际应用,直接蒸馏会降低模型鲁棒性和音视频相关性。
- FADA采用混合监督损失利用不同质量数据提升模型能力,并提出多CFG蒸馏加速推理,同时保持生成质量。
- 实验表明,FADA在多个数据集上实现了4.17-12.5倍的推理加速,同时生成了与先进方法相当的逼真视频。
📝 摘要(中文)
本文提出了一种名为FADA(Fast Diffusion Avatar Synthesis with Mixed-Supervised Multi-CFG Distillation)的快速扩散数字人合成方法。现有的基于扩散模型的音频驱动数字人方法虽然能生成高保真、生动且富有表现力的结果,但其推理速度较慢,限制了实际应用。简单的扩散模型蒸馏方法效果不佳,导致蒸馏后的模型在开放集输入图像上的鲁棒性降低,并且音频和视频之间的相关性降低。为了解决这个问题,FADA设计了一种混合监督损失,以利用不同质量的数据,增强整体模型能力和鲁棒性。此外,提出了一种具有可学习token的多CFG蒸馏方法,以利用音频和参考图像条件之间的相关性,在可接受的质量下降范围内,减少了多CFG导致的三倍推理运行次数。在多个数据集上的大量实验表明,FADA生成的生动视频与最近基于扩散模型的方法相当,同时实现了4.17-12.5倍的NFE加速。
🔬 方法详解
问题定义:现有基于扩散模型的音频驱动数字人合成方法,虽然在生成质量上表现出色,但推理速度慢是其主要瓶颈,限制了其在实时应用中的部署。直接应用现有的扩散模型蒸馏技术会导致模型鲁棒性下降,尤其是在处理开放集输入时,并且会降低音频和视频之间的同步性,从而影响用户体验。
核心思路:FADA的核心思路是通过混合监督学习和多条件引导(CFG)蒸馏来加速扩散模型的推理过程,同时保持甚至提升生成质量和鲁棒性。混合监督学习旨在利用不同质量的数据进行训练,提高模型的泛化能力。多CFG蒸馏则通过学习音频和参考图像条件之间的相关性,减少推理所需的迭代次数。
技术框架:FADA的整体框架包括一个扩散模型作为教师模型,以及一个蒸馏后的学生模型。训练过程包含两个关键部分:首先,使用混合监督损失训练学生模型,使其能够从不同质量的数据中学习。其次,使用多CFG蒸馏技术,将教师模型的知识转移到学生模型,同时减少推理所需的CFG数量。
关键创新:FADA的关键创新在于混合监督损失和多CFG蒸馏。混合监督损失允许模型利用各种质量的数据,从而提高模型的鲁棒性和泛化能力。多CFG蒸馏通过引入可学习的token,学习不同条件之间的相关性,从而减少了推理所需的计算量,实现了加速。与现有方法的本质区别在于,FADA不仅关注推理速度的提升,还注重保持甚至提升生成质量和鲁棒性。
关键设计:混合监督损失包括对高质量数据和低质量数据的不同权重,以平衡模型的学习。多CFG蒸馏使用可学习的token来表示不同条件之间的相关性,这些token在训练过程中学习,并在推理时用于指导模型的生成。具体的网络结构细节和参数设置在论文中有详细描述,但摘要中未明确给出。
🖼️ 关键图片
📊 实验亮点
实验结果表明,FADA在多个数据集上实现了显著的推理加速,NFE减少了4.17到12.5倍,同时保持了与最先进的扩散模型相当的生成质量。通过消融实验验证了混合监督损失和多CFG蒸馏的有效性。与直接蒸馏方法相比,FADA在鲁棒性和音视频同步性方面表现更优。
🎯 应用场景
FADA具有广泛的应用前景,包括实时虚拟主播、在线会议、游戏角色定制、个性化教育等领域。该技术可以显著降低数字人合成的计算成本,使其能够在资源受限的设备上运行,从而推动数字人技术的普及。此外,FADA还可以用于创建更加逼真和个性化的虚拟形象,提升用户体验。
📄 摘要(原文)
Diffusion-based audio-driven talking avatar methods have recently gained attention for their high-fidelity, vivid, and expressive results. However, their slow inference speed limits practical applications. Despite the development of various distillation techniques for diffusion models, we found that naive diffusion distillation methods do not yield satisfactory results. Distilled models exhibit reduced robustness with open-set input images and a decreased correlation between audio and video compared to teacher models, undermining the advantages of diffusion models. To address this, we propose FADA (Fast Diffusion Avatar Synthesis with Mixed-Supervised Multi-CFG Distillation). We first designed a mixed-supervised loss to leverage data of varying quality and enhance the overall model capability as well as robustness. Additionally, we propose a multi-CFG distillation with learnable tokens to utilize the correlation between audio and reference image conditions, reducing the threefold inference runs caused by multi-CFG with acceptable quality degradation. Extensive experiments across multiple datasets show that FADA generates vivid videos comparable to recent diffusion model-based methods while achieving an NFE speedup of 4.17-12.5 times. Demos are available at our webpage http://fadavatar.github.io.