RAP: Real-time Audio-driven Portrait Animation with Video Diffusion Transformer
作者: Fangyu Du, Taiqing Li, Ziwei Zhang, Qian Qiao, Tan Yu, Dingcheng Zhen, Xu Jia, Yang Yang, Shunshun Yin, Siyuan Liu
分类: cs.GR, cs.CV, cs.SD, eess.AS
发布日期: 2025-08-07
备注: 11 pages, 9 figures
💡 一句话要点
RAP:基于视频扩散Transformer的实时音频驱动人像动画
🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation)
关键词: 音频驱动 人像动画 实时渲染 视频扩散Transformer 混合注意力机制 静态-动态训练 说话人像生成
📋 核心要点
- 现有音频驱动人像动画方法计算复杂度高,难以满足实时部署的需求,在压缩的潜在空间中操作时,难以保持细粒度的时空细节。
- RAP框架通过混合注意力机制实现细粒度的音频控制,并采用静态-动态训练-推理范式,避免了对显式运动监督的依赖。
- 实验结果表明,RAP在实时约束下实现了最先进的性能,能够生成高质量且视听同步的说话人像视频。
📝 摘要(中文)
音频驱动的人像动画旨在从输入的音频信号和单个参考图像合成逼真自然的说话人头部视频。现有方法虽然通过利用高维中间表示和显式建模运动动态实现了高质量的结果,但其计算复杂度使其不适合实时部署。实时推理对延迟和内存提出了严格的约束,通常需要使用高度压缩的潜在表示。然而,在如此紧凑的空间中操作会阻碍细粒度时空细节的保留,从而使视听同步复杂化。本文提出了RAP(Real-time Audio-driven Portrait animation),一个统一的框架,用于在实时约束下生成高质量的说话人像。具体来说,RAP引入了一种用于细粒度音频控制的混合注意力机制,以及一种避免显式运动监督的静态-动态训练-推理范式。通过这些技术,RAP实现了精确的音频驱动控制,减轻了长期时间漂移,并保持了高视觉保真度。大量实验表明,RAP在实时约束下实现了最先进的性能。
🔬 方法详解
问题定义:音频驱动人像动画旨在根据输入的音频信号和参考图像生成逼真的说话人像视频。现有方法虽然效果好,但计算量大,难以实时运行。为了实时性,需要压缩特征,但压缩导致细节丢失,影响视听同步和视频质量。
核心思路:RAP的核心思路是在保证实时性的前提下,通过精细的音频控制和避免显式运动监督来提高生成视频的质量和视听同步性。通过混合注意力机制,更精确地将音频信息融入到视频生成过程中。静态-动态训练-推理范式则避免了对复杂运动信息的建模,降低了计算复杂度。
技术框架:RAP采用了一种统一的框架,主要包含音频特征提取、视频扩散Transformer和渲染模块。首先,提取音频特征,然后利用视频扩散Transformer将音频特征和参考图像融合,生成视频帧序列,最后通过渲染模块生成最终的说话人像视频。该框架的关键在于视频扩散Transformer的设计,它集成了混合注意力机制和静态-动态训练-推理范式。
关键创新:RAP的关键创新在于混合注意力机制和静态-动态训练-推理范式。混合注意力机制允许模型同时关注全局和局部音频信息,从而实现更精细的音频控制。静态-动态训练-推理范式则通过在训练阶段引入动态信息,而在推理阶段只使用静态信息,避免了对显式运动信息的建模,降低了计算复杂度,并提高了实时性。
关键设计:RAP的混合注意力机制包括全局注意力和局部注意力,分别用于捕捉音频的整体语义和局部细节。静态-动态训练-推理范式通过在训练阶段使用光流等动态信息来指导模型学习,而在推理阶段只使用参考图像和音频信息,从而保证了实时性。损失函数方面,RAP采用了对抗损失、L1损失和感知损失等,以提高生成视频的质量和逼真度。
🖼️ 关键图片
📊 实验亮点
RAP在实时性方面表现出色,能够在GPU上实现实时推理。在生成视频质量方面,RAP也取得了显著的提升,在多个指标上超越了现有方法。实验结果表明,RAP能够在保证实时性的前提下,生成高质量、视听同步的说话人像视频。
🎯 应用场景
RAP技术可广泛应用于视频会议、虚拟主播、数字人、游戏角色动画等领域。它能够根据用户的语音实时生成逼真的说话人像视频,极大地提升用户体验和互动性。此外,该技术还可以用于生成个性化的教育视频、娱乐内容等,具有广阔的应用前景和商业价值。
📄 摘要(原文)
Audio-driven portrait animation aims to synthesize realistic and natural talking head videos from an input audio signal and a single reference image. While existing methods achieve high-quality results by leveraging high-dimensional intermediate representations and explicitly modeling motion dynamics, their computational complexity renders them unsuitable for real-time deployment. Real-time inference imposes stringent latency and memory constraints, often necessitating the use of highly compressed latent representations. However, operating in such compact spaces hinders the preservation of fine-grained spatiotemporal details, thereby complicating audio-visual synchronization RAP (Real-time Audio-driven Portrait animation), a unified framework for generating high-quality talking portraits under real-time constraints. Specifically, RAP introduces a hybrid attention mechanism for fine-grained audio control, and a static-dynamic training-inference paradigm that avoids explicit motion supervision. Through these techniques, RAP achieves precise audio-driven control, mitigates long-term temporal drift, and maintains high visual fidelity. Extensive experiments demonstrate that RAP achieves state-of-the-art performance while operating under real-time constraints.