Avatar Forcing: Real-Time Interactive Head Avatar Generation for Natural Conversation

📄 arXiv: 2601.00664v1 📥 PDF

作者: Taekyung Ki, Sangwon Jang, Jaehyeong Jo, Jaehong Yoon, Sung Ju Hwang

分类: cs.LG, cs.AI, cs.CV, cs.HC, cs.MM

发布日期: 2026-01-02

备注: Project page: https://taekyungki.github.io/AvatarForcing/


💡 一句话要点

提出Avatar Forcing框架,实现自然对话的实时交互式头部Avatar生成

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 头部Avatar生成 实时交互 扩散模型 扩散强制 多模态融合 直接偏好优化 无监督学习

📋 核心要点

  1. 现有头部Avatar生成模型缺乏真实互动感,难以捕捉用户的情感变化并做出自然反应。
  2. Avatar Forcing通过扩散强制建模用户与Avatar的实时交互,使Avatar能够快速响应用户的语音和动作。
  3. 引入直接偏好优化方法,利用合成负样本进行无监督学习,提升Avatar的表现力,使其反应更加生动。

📝 摘要(中文)

本文提出了一种名为Avatar Forcing的交互式头部Avatar生成框架,旨在解决现有模型在虚拟交流中缺乏真实互动感的问题。现有模型通常生成单向响应,缺乏情感互动。为了实现真正具有交互性的Avatar,本文着重解决两个关键挑战:在因果约束下实时生成运动,以及在没有额外标注数据的情况下学习富有表现力的生动反应。Avatar Forcing通过扩散强制建模实时用户-Avatar交互,使Avatar能够以低延迟处理实时多模态输入,包括用户的音频和运动,从而对语音、点头和笑声等言语和非言语线索做出即时反应。此外,本文还引入了一种直接偏好优化方法,该方法利用通过删除用户条件构建的合成负样本,从而实现无标签的表现力交互学习。实验结果表明,该框架能够以低延迟(约500毫秒)实现实时交互,与基线相比速度提高了6.8倍,并生成了反应灵敏且富有表现力的Avatar运动,其效果优于基线80%以上。

🔬 方法详解

问题定义:现有头部Avatar生成模型生成的Avatar往往是单向响应,缺乏情感互动,无法实现真正自然的实时交互。主要痛点在于难以在低延迟下处理用户的多模态输入(音频和动作),并生成富有表现力的反应,同时缺乏有效的无监督学习方法来提升Avatar的表现力。

核心思路:本文的核心思路是通过扩散强制(Diffusion Forcing)来建模用户与Avatar之间的实时交互。扩散模型能够生成高质量的图像和视频,而扩散强制则允许模型在生成过程中受到外部条件的引导。通过将用户的音频和动作作为条件,Avatar可以根据用户的输入生成相应的面部表情和头部运动,从而实现实时交互。

技术框架:Avatar Forcing框架主要包含以下几个模块:1) 多模态输入编码器:用于提取用户音频和动作的特征表示。2) 扩散模型:用于生成Avatar的面部表情和头部运动。3) 扩散强制模块:用于将用户的输入条件融入到扩散模型的生成过程中。4) 直接偏好优化模块:用于提升Avatar的表现力。整体流程是:用户输入音频和动作 -> 多模态输入编码器提取特征 -> 扩散强制模块将特征融入扩散模型 -> 扩散模型生成Avatar的面部表情和头部运动 -> 直接偏好优化模块提升Avatar的表现力。

关键创新:本文最重要的技术创新点在于提出了Avatar Forcing框架,该框架能够以低延迟处理用户的多模态输入,并生成富有表现力的Avatar反应。与现有方法相比,Avatar Forcing能够更好地捕捉用户的情感变化,并生成更加自然的交互式Avatar。此外,本文还提出了一种直接偏好优化方法,该方法利用合成负样本进行无监督学习,进一步提升了Avatar的表现力。

关键设计:在扩散模型方面,采用了基于Transformer的架构,以更好地捕捉时间序列上的依赖关系。在扩散强制模块中,采用了自适应的强制强度,以平衡生成质量和条件依赖性。在直接偏好优化模块中,通过随机删除用户输入条件来生成合成负样本,并使用对比学习损失来优化模型。延迟控制在500ms以内,保证实时性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Avatar Forcing框架能够以约500毫秒的低延迟实现实时交互,与基线方法相比,速度提高了6.8倍。主观评价实验表明,用户更喜欢Avatar Forcing生成的Avatar,其表现力优于基线方法80%以上。这些结果表明,Avatar Forcing在实时性和表现力方面都取得了显著的提升。

🎯 应用场景

Avatar Forcing技术可广泛应用于虚拟会议、在线教育、游戏娱乐、虚拟助手等领域。它可以创建更具吸引力和互动性的虚拟化身,提升用户体验,促进更自然的交流。未来,该技术有望应用于更广泛的人机交互场景,例如远程医疗、智能客服等,实现更高效、更人性化的服务。

📄 摘要(原文)

Talking head generation creates lifelike avatars from static portraits for virtual communication and content creation. However, current models do not yet convey the feeling of truly interactive communication, often generating one-way responses that lack emotional engagement. We identify two key challenges toward truly interactive avatars: generating motion in real-time under causal constraints and learning expressive, vibrant reactions without additional labeled data. To address these challenges, we propose Avatar Forcing, a new framework for interactive head avatar generation that models real-time user-avatar interactions through diffusion forcing. This design allows the avatar to process real-time multimodal inputs, including the user's audio and motion, with low latency for instant reactions to both verbal and non-verbal cues such as speech, nods, and laughter. Furthermore, we introduce a direct preference optimization method that leverages synthetic losing samples constructed by dropping user conditions, enabling label-free learning of expressive interaction. Experimental results demonstrate that our framework enables real-time interaction with low latency (approximately 500ms), achieving 6.8X speedup compared to the baseline, and produces reactive and expressive avatar motion, which is preferred over 80% against the baseline.