RAP: Real-time Audio-driven Portrait Animation with Video Diffusion Transformer
作者: Fangyu Du, Taiqing Li, Qian Qiao, Tan Yu, Ziwei Zhang, Dingcheng Zhen, Xu Jia, Yang Yang, Shunshun Yin, Siyuan Liu
分类: cs.GR, cs.CV, cs.SD, eess.AS
发布日期: 2026-02-28
💡 一句话要点
RAP:基于视频扩散Transformer的实时音频驱动人像动画
🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation)
关键词: 音频驱动 人像动画 实时渲染 视频扩散模型 Transformer
📋 核心要点
- 现有音频驱动人像动画方法计算复杂度高,难以满足实时部署的需求,在压缩的潜在空间中操作时,难以保持精细的时空细节。
- RAP框架通过混合注意力机制实现精细的音频控制,并采用静态-动态训练-推理范式,避免了对显式运动监督的依赖。
- 实验结果表明,RAP在满足实时性要求的同时,实现了最先进的性能,能够生成高质量的说话人头像视频。
📝 摘要(中文)
音频驱动的人像动画旨在从输入的音频信号和单个参考图像合成逼真自然的说话人头部视频。现有方法虽然通过利用高维中间表示和显式建模运动动态来实现高质量的结果,但其计算复杂度使其不适合实时部署。实时推理对延迟和内存提出了严格的约束,通常需要使用高度压缩的潜在表示。然而,在如此紧凑的空间中操作会阻碍对精细时空细节的保留,从而使视听同步变得复杂。本文提出了RAP(Real-time Audio-driven Portrait animation),一个统一的框架,用于在实时约束下生成高质量的说话人头像。具体来说,RAP引入了一种用于精细音频控制的混合注意力机制,以及一种避免显式运动监督的静态-动态训练-推理范式。通过这些技术,RAP实现了精确的音频驱动控制,减轻了长期时间漂移,并保持了高视觉保真度。大量实验表明,RAP在实时约束下实现了最先进的性能。
🔬 方法详解
问题定义:现有音频驱动人像动画方法在追求高质量的同时,计算复杂度过高,难以满足实时应用的需求。为了实现实时性,现有方法通常需要在高度压缩的潜在空间中进行操作,这会导致精细的时空细节丢失,影响视听同步效果。
核心思路:RAP的核心思路是在保证实时性的前提下,尽可能地保留和利用输入音频中的精细信息,并避免对运动进行显式建模。通过混合注意力机制实现音频的精细控制,并采用静态-动态训练-推理范式来减轻长期时间漂移。
技术框架:RAP框架主要包含音频编码器、视频扩散Transformer和图像解码器三个模块。音频编码器将输入的音频信号转换为音频特征表示。视频扩散Transformer根据音频特征和参考图像生成视频帧的潜在表示。图像解码器将潜在表示解码为最终的视频帧。该框架采用静态-动态训练-推理范式,在训练阶段同时使用静态图像和动态视频数据,而在推理阶段仅使用静态参考图像。
关键创新:RAP的关键创新在于以下两点:一是混合注意力机制,它结合了全局注意力和局部注意力,能够更有效地利用音频信息,实现更精细的音频控制。二是静态-动态训练-推理范式,它避免了对运动进行显式建模,从而降低了计算复杂度,并减轻了长期时间漂移。
关键设计:RAP的混合注意力机制包括一个全局注意力模块和一个局部注意力模块。全局注意力模块用于捕捉音频信号的全局信息,局部注意力模块用于捕捉音频信号的局部信息。静态-动态训练-推理范式通过在训练阶段引入动态视频数据来提高模型的泛化能力。损失函数包括重建损失、对抗损失和感知损失,用于提高生成视频的质量。
🖼️ 关键图片
📊 实验亮点
RAP在实时性方面表现出色,能够在GPU上实现实时推理。在视觉质量方面,RAP也取得了显著的提升,在多个指标上超越了现有的实时音频驱动人像动画方法。实验结果表明,RAP能够生成更逼真、更自然的说话人头像视频,并且能够更好地保持视听同步。
🎯 应用场景
RAP技术可广泛应用于实时视频会议、虚拟主播、数字人生成、游戏角色动画等领域。它能够以较低的计算成本生成高质量的说话人头像视频,为用户提供更逼真、更自然的交互体验。该技术还有潜力应用于教育、娱乐、医疗等领域,例如,可以用于生成个性化的教学视频、互动式游戏角色和远程医疗咨询。
📄 摘要(原文)
Audio-driven portrait animation aims to synthesize realistic and natural talking head videos from an input audio signal and a single reference image. While existing methods achieve high-quality results by leveraging high-dimensional intermediate representations and explicitly modeling motion dynamics, their computational complexity renders them unsuitable for real-time deployment. Real-time inference imposes stringent latency and memory constraints, often necessitating the use of highly compressed latent representations. However, operating in such compact spaces hinders the preservation of fine-grained spatiotemporal details, thereby complicating audio-visual synchronization RAP (Real-time Audio-driven Portrait animation), a unified framework for generating high-quality talking portraits under real-time constraints. Specifically, RAP introduces a hybrid attention mechanism for fine-grained audio control, and a static-dynamic training-inference paradigm that avoids explicit motion supervision. Through these techniques, RAP achieves precise audio-driven control, mitigates long-term temporal drift, and maintains high visual fidelity. Extensive experiments demonstrate that RAP achieves state-of-the-art performance while operating under real-time constraints.