INFP: Audio-Driven Interactive Head Generation in Dyadic Conversations

📄 arXiv: 2412.04037v1 📥 PDF

作者: Yongming Zhu, Longhao Zhang, Zhengkun Rong, Tianshu Hu, Shuang Liang, Zhipeng Ge

分类: cs.CV, cs.AI

发布日期: 2024-12-05

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

INFP:用于双人对话的音频驱动交互式头部生成框架

🎯 匹配领域: 支柱四:生成式动作 (Generative Motion) 支柱五:交互与反应 (Interaction & Reaction)

关键词: 头部生成 音频驱动 双人对话 交互式动画 深度学习

📋 核心要点

  1. 现有头部生成方法主要集中于单向交流,或需要手动指定角色,缺乏在双人对话中动态切换说话和倾听状态的能力。
  2. INFP通过运动模仿和音频引导的运动生成两个阶段,实现了根据双人音频动态驱动头部,模拟自然的双人对话交互。
  3. 论文提出了大规模双人对话数据集DyConv,并通过实验验证了INFP在头部生成任务上的优越性能和有效性。

📝 摘要(中文)

本文提出了一种名为INFP的新型音频驱动头部生成框架,用于双人交互场景。与以往仅关注单向通信或需要手动角色分配和显式角色切换的头部生成工作不同,INFP模型能够根据输入的双人音频动态地驱动代理人物在说话和倾听状态之间切换。具体而言,INFP包含一个基于运动的头部模仿阶段和一个音频引导的运动生成阶段。第一阶段学习将真实对话视频中的面部交流行为投影到低维运动潜在空间,并使用运动潜在代码来动画静态图像。第二阶段学习通过去噪将输入的双人音频映射到运动潜在代码,从而实现交互场景中的音频驱动头部生成。为了促进该领域的研究,我们引入了DyConv,这是一个从互联网收集的大规模双人对话数据集。大量的实验和可视化结果证明了我们方法的优越性能和有效性。

🔬 方法详解

问题定义:现有头部生成方法主要关注单向通信,例如根据文本或音频驱动单个角色的面部表情。在双人对话场景中,角色需要在说话者和倾听者之间动态切换,并且面部表情需要根据对方的语音和行为做出反应。现有方法无法很好地处理这种动态交互,需要手动指定角色或进行显式角色切换,缺乏自然性和流畅性。

核心思路:INFP的核心思路是将真实双人对话视频中的面部交流行为学习到一个低维的运动潜在空间中,然后通过音频引导的方式生成该潜在空间中的运动代码,从而驱动头部动画。通过这种方式,模型可以学习到说话者和倾听者之间的动态关系,并生成更加自然和真实的头部表情。

技术框架:INFP包含两个主要阶段:运动模仿阶段和音频引导的运动生成阶段。在运动模仿阶段,模型学习将真实对话视频中的面部运动编码到低维的运动潜在空间中。具体来说,模型使用一个编码器将视频帧编码为运动潜在代码,并使用一个解码器从运动潜在代码重建视频帧。在音频引导的运动生成阶段,模型学习将输入的双人音频映射到运动潜在代码。具体来说,模型使用一个音频编码器将音频编码为音频特征,并使用一个生成器从音频特征生成运动潜在代码。为了提高生成质量,模型还使用了去噪技术。

关键创新:INFP的关键创新在于其能够根据双人音频动态地驱动头部在说话和倾听状态之间切换。这使得模型能够模拟真实的双人对话交互,并生成更加自然和真实的头部表情。此外,INFP还提出了大规模双人对话数据集DyConv,为该领域的研究提供了新的资源。

关键设计:在运动模仿阶段,模型使用了变分自编码器(VAE)来学习运动潜在空间。VAE可以学习到数据的概率分布,从而生成更加多样化的运动。在音频引导的运动生成阶段,模型使用了Transformer网络来学习音频特征和运动潜在代码之间的映射关系。Transformer网络具有强大的序列建模能力,可以很好地处理音频和运动之间的时序关系。模型使用了对抗损失来提高生成质量,并使用了L1损失来保证生成运动的平滑性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,INFP在头部生成任务上取得了显著的性能提升。与现有方法相比,INFP生成的头部表情更加自然和真实,并且能够更好地模拟双人对话的动态交互。此外,消融实验验证了INFP各个模块的有效性,例如运动模仿阶段和音频引导的运动生成阶段。主观评价实验也表明,用户更喜欢INFP生成的头部动画。

🎯 应用场景

INFP具有广泛的应用前景,例如虚拟助手、在线教育、游戏和电影等领域。它可以用于创建更加逼真和自然的虚拟角色,从而提高用户体验。例如,在虚拟助手中,INFP可以使虚拟助手能够根据用户的语音和表情做出更加自然的反应,从而提高用户的交互体验。在在线教育中,INFP可以用于创建更加生动的教学内容,从而提高学生的学习兴趣。

📄 摘要(原文)

Imagine having a conversation with a socially intelligent agent. It can attentively listen to your words and offer visual and linguistic feedback promptly. This seamless interaction allows for multiple rounds of conversation to flow smoothly and naturally. In pursuit of actualizing it, we propose INFP, a novel audio-driven head generation framework for dyadic interaction. Unlike previous head generation works that only focus on single-sided communication, or require manual role assignment and explicit role switching, our model drives the agent portrait dynamically alternates between speaking and listening state, guided by the input dyadic audio. Specifically, INFP comprises a Motion-Based Head Imitation stage and an Audio-Guided Motion Generation stage. The first stage learns to project facial communicative behaviors from real-life conversation videos into a low-dimensional motion latent space, and use the motion latent codes to animate a static image. The second stage learns the mapping from the input dyadic audio to motion latent codes through denoising, leading to the audio-driven head generation in interactive scenarios. To facilitate this line of research, we introduce DyConv, a large scale dataset of rich dyadic conversations collected from the Internet. Extensive experiments and visualizations demonstrate superior performance and effectiveness of our method. Project Page: https://grisoon.github.io/INFP/.