Tiny is not small enough: High-quality, low-resource facial animation models through hybrid knowledge distillation
作者: Zhen Han, Mattias Teye, Derek Yadgaroff, Judith Bütepage
分类: cs.GR, cs.LG, cs.MM, cs.SD, eess.AS
发布日期: 2025-07-24 (更新: 2025-09-19)
备注: Accepted to ACM TOG 2025 (SIGGRAPH journal track); Project page: https://electronicarts.github.io/tiny-voice2face/
期刊: ACM Transactions on Graphics, Vol. 44, No. 4, Article 104, July 2025
DOI: 10.1145/3730929
💡 一句话要点
通过混合知识蒸馏,实现高质量、低资源的面部动画模型
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 面部动画 知识蒸馏 模型压缩 设备端推理 语音驱动 伪标签 轻量级模型
📋 核心要点
- 高质量面部动画模型训练依赖大量音频-动画数据,现有方法模型体积大,难以在设备端实时运行。
- 采用混合知识蒸馏,利用大型音频数据集和高性能教师模型训练小型学生模型,无需复杂结构。
- 实验表明,该方法显著降低模型大小和音频上下文需求,同时保持动画质量,利于设备端部署。
📝 摘要(中文)
本文针对语音驱动的3D面部动画模型训练需要大量高质量音频-动画配对数据集的问题,提出了一种基于混合知识蒸馏和伪标签的方法,以克服数据集的不足。利用高性能的教师模型,训练非常小的学生模型。与预训练的语音编码器不同,学生模型仅由卷积层和全连接层组成,无需注意力机制或循环更新。实验结果表明,在保持高质量动画的同时,可以将内存占用减少到3.4 MB,并将所需的未来音频上下文减少到81 ms。这为设备端推理铺平了道路,是实现逼真、模型驱动的数字角色的重要一步。
🔬 方法详解
问题定义:现有的语音驱动3D面部动画模型通常依赖于大型预训练的语音编码器,这些模型虽然能够处理各种音频输入,但体积庞大,计算复杂度高,难以在移动设备或嵌入式系统上进行实时推理。因此,如何在资源受限的设备上实现高质量的面部动画是一个关键问题。
核心思路:本文的核心思路是利用知识蒸馏技术,将大型、高性能的教师模型所学习到的知识迁移到小型、轻量级的学生模型中。通过这种方式,学生模型可以在保持较高动画质量的同时,显著降低模型大小和计算复杂度,从而满足设备端实时推理的需求。此外,还使用了伪标签技术来扩充训练数据。
技术框架:该方法主要包含以下几个阶段:1) 使用大型音频数据集;2) 训练一个高性能的教师模型;3) 使用教师模型为未标注的音频数据生成伪标签;4) 使用原始标注数据和伪标签数据,通过混合知识蒸馏的方式训练小型学生模型。学生模型主要由卷积层和全连接层组成,避免了使用注意力机制或循环神经网络等复杂结构。
关键创新:该方法的主要创新在于混合知识蒸馏策略,它结合了原始标注数据和教师模型生成的伪标签数据,从而有效地利用了大量的未标注音频数据。此外,通过设计简单的学生模型结构(仅包含卷积层和全连接层),显著降低了模型的计算复杂度和内存占用。
关键设计:在知识蒸馏过程中,使用了多种损失函数,包括回归损失(用于匹配教师模型的输出)和分类损失(用于匹配教师模型预测的伪标签)。此外,还对学生模型的网络结构进行了精细设计,以在模型大小和性能之间取得最佳平衡。具体参数设置和损失函数权重等细节在论文中进行了详细描述(未知)。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法可以将面部动画模型的内存占用减少到3.4 MB,并将所需的未来音频上下文减少到81 ms,同时保持高质量的动画效果。与使用大型预训练语音编码器的模型相比,该方法在模型大小和计算复杂度方面具有显著优势,为设备端实时面部动画提供了可行的解决方案。具体的性能指标和对比基线在论文中进行了详细展示(未知)。
🎯 应用场景
该研究成果可广泛应用于游戏开发、虚拟现实、增强现实、社交媒体等领域。通过在移动设备或嵌入式系统上部署轻量级的面部动画模型,可以实现更逼真、更具互动性的数字角色,提升用户体验。例如,在移动游戏中,可以根据玩家的语音实时驱动游戏角色的面部表情,从而增强游戏的沉浸感。
📄 摘要(原文)
The training of high-quality, robust machine learning models for speech-driven 3D facial animation requires a large, diverse dataset of high-quality audio-animation pairs. To overcome the lack of such a dataset, recent work has introduced large pre-trained speech encoders that are robust to variations in the input audio and, therefore, enable the facial animation model to generalize across speakers, audio quality, and languages. However, the resulting facial animation models are prohibitively large and lend themselves only to offline inference on a dedicated machine. In this work, we explore on-device, real-time facial animation models in the context of game development. We overcome the lack of large datasets by using hybrid knowledge distillation with pseudo-labeling. Given a large audio dataset, we employ a high-performing teacher model to train very small student models. In contrast to the pre-trained speech encoders, our student models only consist of convolutional and fully-connected layers, removing the need for attention context or recurrent updates. In our experiments, we demonstrate that we can reduce the memory footprint to up to 3.4 MB and required future audio context to up to 81 ms while maintaining high-quality animations. This paves the way for on-device inference, an important step towards realistic, model-driven digital characters.