AniTalker: Animate Vivid and Diverse Talking Faces through Identity-Decoupled Facial Motion Encoding
作者: Tao Liu, Feilong Chen, Shuai Fan, Chenpeng Du, Qi Chen, Xie Chen, Kai Yu
分类: cs.CV, cs.AI
发布日期: 2024-05-06
备注: 14 pages, 7 figures
🔗 代码/项目: GITHUB
💡 一句话要点
AniTalker:通过解耦身份的面部运动编码生成生动多样的说话人脸
🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)
关键词: 说话人脸生成 面部动画 身份解耦 运动编码 扩散模型
📋 核心要点
- 现有说话人脸生成模型难以捕捉细微的面部表情和头部运动等非语言信息,导致生成效果不够生动。
- AniTalker提出了一种通用的、解耦身份信息的面部运动表示,并通过自监督学习策略学习细微的运动信息。
- 通过集成扩散模型和方差适配器,AniTalker能够生成多样且可控的面部动画,提升了生成效果。
📝 摘要(中文)
本文介绍了一种名为AniTalker的创新框架,旨在从单张人像生成逼真的说话人脸。与现有模型主要关注唇音同步等口头线索,而未能捕捉面部表情和非语言线索的复杂动态不同,AniTalker采用了一种通用的运动表示。这种创新表示有效地捕捉了广泛的面部动态,包括细微的表情和头部运动。AniTalker通过两种自监督学习策略来增强运动描绘:第一种涉及在同一身份内从源帧重建目标视频帧,以学习细微的运动表示;第二种使用度量学习开发身份编码器,同时主动最小化身份和运动编码器之间的互信息。这种方法确保了运动表示是动态的,并且不包含特定于身份的细节,从而显著减少了对标记数据的需求。此外,将扩散模型与方差适配器集成在一起,可以生成多样且可控的面部动画。该方法不仅展示了AniTalker创建详细逼真面部运动的能力,还强调了其在为实际应用制作动态头像方面的潜力。
🔬 方法详解
问题定义:现有说话人脸生成方法主要关注唇动同步,忽略了面部表情、头部运动等非语言信息的建模,导致生成的人脸不够生动自然。此外,现有方法通常需要大量的标注数据,训练成本高昂。
核心思路:AniTalker的核心思路是学习一种通用的、解耦身份信息的面部运动表示。通过将身份信息和运动信息分离,可以更好地控制生成人脸的表情和动作,并减少对身份信息的依赖。同时,采用自监督学习的方式,可以减少对标注数据的需求。
技术框架:AniTalker的整体框架包含以下几个主要模块:1) 运动编码器:用于提取输入视频帧的运动信息,生成通用的运动表示。2) 身份编码器:用于提取输入人像的身份信息。3) 扩散模型:用于根据运动表示和身份信息生成目标视频帧。4) 方差适配器:用于控制生成视频帧的多样性。整个流程是,首先将驱动视频通过运动编码器提取运动信息,将目标人物图像通过身份编码器提取身份信息,然后将两者输入到扩散模型中,最后通过方差适配器控制生成结果的多样性。
关键创新:AniTalker的关键创新在于提出了身份解耦的面部运动表示。通过最小化身份编码器和运动编码器之间的互信息,可以确保运动表示不包含身份信息,从而实现对表情和动作的更精细控制。此外,采用自监督学习策略,可以有效减少对标注数据的依赖。
关键设计:AniTalker使用了两种自监督学习策略:1) 同一身份重建:通过从源帧重建目标视频帧,学习细微的运动表示。2) 互信息最小化:通过度量学习训练身份编码器,并主动最小化身份和运动编码器之间的互信息。扩散模型采用DDPM结构,方差适配器通过调整扩散过程中的噪声水平来控制生成结果的多样性。损失函数包括重建损失、互信息损失和对抗损失等。
📊 实验亮点
AniTalker通过解耦身份的面部运动编码,实现了更生动、更多样化的说话人脸生成。实验结果表明,AniTalker在生成质量和多样性方面均优于现有方法。定性结果展示了AniTalker生成逼真表情和头部运动的能力,证明了其在说话人脸生成领域的有效性。
🎯 应用场景
AniTalker具有广泛的应用前景,例如可以用于创建个性化的虚拟助手、生成逼真的数字替身、制作高质量的视频会议内容等。该研究的成果有助于提升人机交互的自然性和真实感,并为虚拟现实、增强现实等领域的发展提供技术支持。
📄 摘要(原文)
The paper introduces AniTalker, an innovative framework designed to generate lifelike talking faces from a single portrait. Unlike existing models that primarily focus on verbal cues such as lip synchronization and fail to capture the complex dynamics of facial expressions and nonverbal cues, AniTalker employs a universal motion representation. This innovative representation effectively captures a wide range of facial dynamics, including subtle expressions and head movements. AniTalker enhances motion depiction through two self-supervised learning strategies: the first involves reconstructing target video frames from source frames within the same identity to learn subtle motion representations, and the second develops an identity encoder using metric learning while actively minimizing mutual information between the identity and motion encoders. This approach ensures that the motion representation is dynamic and devoid of identity-specific details, significantly reducing the need for labeled data. Additionally, the integration of a diffusion model with a variance adapter allows for the generation of diverse and controllable facial animations. This method not only demonstrates AniTalker's capability to create detailed and realistic facial movements but also underscores its potential in crafting dynamic avatars for real-world applications. Synthetic results can be viewed at https://github.com/X-LANCE/AniTalker.