AudioFace: Language-Assisted Speech-Driven Facial Animation with Multimodal Language Models
作者: Kai Zheng, Zejian Kang, Rui Mao, Hongyuan Zou, Yuanchen Fei, Xuanyang Xu, Xiangru Huang
分类: cs.CV
发布日期: 2026-05-08
💡 一句话要点
提出AudioFace框架,利用多模态大模型先验实现语言辅助的语音驱动面部动画生成。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 语音驱动动画 多模态大模型 面部混合形状 音素对齐 数字人生成 语义引导生成
📋 核心要点
- 现有方法直接映射音频到面部系数,缺乏对语音底层语言学和发音结构的理解,导致口型同步精度不足。
- AudioFace引入多模态大模型先验,通过整合转录文本和音素级线索,将面部系数预测转化为结构化的生成任务。
- 实验结果表明,该方法在多个评价指标上显著优于现有基线,有效提升了面部动画的自然度与口型同步准确性。
📝 摘要(中文)
语音驱动的面部动画要求声学信号与面部运动之间具有精确的对应关系,特别是在与发音相关的口型运动方面。然而,直接将语音音频映射到面部系数的方法往往忽略了语音产生背后的语言学和语音学结构。本文提出了AudioFace,这是一个用于语音驱动混合形状(blendshape)生成的语言辅助框架,它将与嘴部相关的面部系数预测视为一个由语言和发音信息引导的结构化生成问题。我们的方法不再仅仅依赖声学特征,而是利用多模态大语言模型的先验知识,并引入转录和音素级线索,以弥合语音信号与可解释面部动作之间的鸿沟。大量实验表明,AudioFace在多个评估指标上均表现优异,验证了语言辅助和多模态先验引导在语音驱动面部动画中的有效性。
🔬 方法详解
问题定义:该研究旨在解决语音驱动面部动画中“音频到动作”映射的语义缺失问题。现有方法通常仅依赖声学特征,难以捕捉复杂的发音动力学,导致口型与语音内容在精细度上存在偏差。
核心思路:引入语言学先验作为桥梁。通过多模态大语言模型(MLLM)提取文本和音素信息,为面部系数生成提供明确的语义约束,从而将非结构化的音频信号转化为结构化的面部动作序列。
技术框架:系统包含三个核心阶段:首先是多模态特征提取,利用MLLM处理文本输入;其次是特征对齐模块,将音素序列与音频特征进行时序对齐;最后是生成网络,基于融合后的多模态特征预测面部混合形状系数。
关键创新:核心创新在于将语言学知识(转录与音素)显式引入生成流程,利用大模型的先验能力弥补了纯音频驱动在发音细节上的不足,实现了从“信号驱动”向“语义驱动”的范式转变。
关键设计:采用了基于音素的编码器结构,通过对比学习或注意力机制实现音频与音素特征的深度融合,并针对混合形状系数的稀疏性和动态特性设计了专门的损失函数,以确保生成动作的平滑性与准确性。
🖼️ 关键图片
📊 实验亮点
实验结果显示,AudioFace在多个基准数据集上取得了优于现有SOTA方法的效果。在口型同步误差(Lip Sync Error)和面部运动自然度指标上均有显著提升,特别是在处理快速语速和复杂发音时,表现出更强的鲁棒性和细节还原能力,验证了语言辅助机制的有效性。
🎯 应用场景
该技术在数字人交互、虚拟主播、电影特效制作及游戏开发领域具有广泛应用价值。通过提升语音驱动动画的口型同步精度,能够显著降低高质量数字人内容的制作成本,并增强虚拟角色在实时对话系统中的表现力与沉浸感。
📄 摘要(原文)
Speech-driven facial animation requires accurate correspondence between acoustic signals and facial motion, especially for articulation-related mouth movements. However, directly mapping speech audio to facial coefficients often overlooks the linguistic and phonetic structure underlying speech production. In this paper, we propose AudioFace, a language-assisted framework for speech-driven blendshape generation that treats mouth-related facial coefficient prediction as a structured generation problem guided by linguistic and articulatory information. Instead of relying solely on acoustic features, our method leverages the prior knowledge of multimodal large language models and introduces transcript- and phoneme-level cues to bridge speech signals with interpretable facial actions. Extensive experiments show that AudioFace achieves superior performance across multiple evaluation metrics, validating the effectiveness of language-assisted and multimodal-prior-guided speech-driven facial animation.