TurboTalk: Progressive Distillation for One-Step Audio-Driven Talking Avatar Generation
作者: Xiangyu Liu, Feng Gao, Xiaomei Zhang, Yong Zhang, Xiaoming Wei, Zhen Lei, Xiangyu Zhu
分类: cs.CV, cs.MM, cs.SD
发布日期: 2026-04-16
💡 一句话要点
TurboTalk:用于一步式音频驱动说话人头像生成的渐进式蒸馏框架
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 音频驱动 说话人头像生成 扩散模型 蒸馏训练 单步生成 对抗学习 渐进式学习
📋 核心要点
- 现有音频驱动的数字人生成模型计算开销大,难以实时部署,主要原因是依赖多步去噪。
- TurboTalk通过两阶段渐进式蒸馏,将多步扩散模型压缩为单步生成器,显著提升推理速度。
- 该方法引入渐进式时间步采样和自比较对抗目标,解决了单步蒸馏训练不稳定的问题。
📝 摘要(中文)
现有的音频驱动视频数字人生成模型依赖于多步去噪,导致巨大的计算开销,严重限制了它们在实际环境中的部署。虽然一步式蒸馏方法可以显著加速推理,但它们通常会遭受训练不稳定性的困扰。为了解决这个挑战,我们提出了TurboTalk,一个两阶段渐进式蒸馏框架,有效地将多步音频驱动视频扩散模型压缩成单步生成器。我们首先采用分布匹配蒸馏来获得一个强大且稳定的4步学生模型,然后通过对抗蒸馏逐步将去噪步骤从4步减少到1步。为了确保在极端步骤减少下的稳定训练,我们引入了一种渐进式时间步采样策略和一个自比较对抗目标,该目标提供了一个中间对抗参考,以稳定渐进式蒸馏。我们的方法实现了视频说话人头像的单步生成,在保持高生成质量的同时,将推理速度提高了120倍。
🔬 方法详解
问题定义:现有音频驱动的说话人头像生成模型依赖于多步去噪过程,导致计算复杂度高,推理速度慢,难以满足实时应用的需求。一步式蒸馏方法虽然可以加速推理,但训练过程往往不稳定,难以获得高质量的生成结果。
核心思路:TurboTalk的核心思路是通过渐进式蒸馏,将一个训练好的多步扩散模型逐步压缩成一个单步生成模型。这种渐进的方式可以避免一步到位带来的训练不稳定问题,同时利用中间步骤的监督信息来提升最终模型的性能。
技术框架:TurboTalk包含两个主要阶段:第一阶段是分布匹配蒸馏,将原始的多步扩散模型蒸馏成一个4步的学生模型,该学生模型具有较好的性能和稳定性。第二阶段是渐进式对抗蒸馏,逐步减少去噪步骤,最终得到单步生成模型。在训练过程中,引入了渐进式时间步采样策略和自比较对抗目标。
关键创新:TurboTalk的关键创新在于渐进式蒸馏框架和自比较对抗目标。渐进式蒸馏通过逐步减少去噪步骤,避免了训练初期的大幅度变化,提高了训练稳定性。自比较对抗目标通过引入中间对抗参考,为蒸馏过程提供了更有效的监督信号,进一步提升了生成质量。
关键设计:在渐进式时间步采样策略中,随着去噪步骤的减少,采样的时间步也逐渐靠近0,从而更好地适应单步生成的需求。自比较对抗目标通过比较生成器生成的图像和中间步骤的图像,来约束生成器的输出,使其更接近真实图像。损失函数包括对抗损失、L1损失和感知损失,用于保证生成图像的质量和真实感。
🖼️ 关键图片
📊 实验亮点
TurboTalk在音频驱动的说话人头像生成任务上取得了显著的性能提升。实验结果表明,TurboTalk可以在保持高生成质量的同时,将推理速度提高120倍。与现有的多步方法相比,TurboTalk在速度和质量之间取得了更好的平衡,为实时应用提供了可能。
🎯 应用场景
TurboTalk具有广泛的应用前景,包括虚拟会议、游戏、社交媒体和虚拟助手等领域。它可以用于生成逼真的实时说话人头像,提升用户体验,降低计算成本。该技术还有潜力应用于其他需要快速生成高质量图像或视频的任务中,例如视频编辑和特效制作。
📄 摘要(原文)
Existing audio-driven video digital human generation models rely on multi-step denoising, resulting in substantial computational overhead that severely limits their deployment in real-world settings. While one-step distillation approaches can significantly accelerate inference, they often suffer from training instability. To address this challenge, we propose TurboTalk, a two-stage progressive distillation framework that effectively compresses a multi-step audio-driven video diffusion model into a single-step generator. We first adopt Distribution Matching Distillation to obtain a strong and stable 4-step student, and then progressively reduce the denoising steps from 4 to 1 through adversarial distillation. To ensure stable training under extreme step reduction, we introduce a progressive timestep sampling strategy and a self-compare adversarial objective that provides an intermediate adversarial reference that stabilizes progressive distillation. Our method achieve single-step generation of video talking avatar, boosting inference speed by 120 times while maintaining high generation quality.