MMTalker: Multiresolution 3D Talking Head Synthesis with Multimodal Feature Fusion
作者: Bin Liu, Zhixiang Xiong, Zhifen He, Bo Li
分类: cs.CV
发布日期: 2026-04-06
💡 一句话要点
MMTalker:基于多分辨率和多模态融合的3D说话头合成
🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 3D说话头合成 语音驱动动画 多模态融合 图卷积网络 交叉注意力
📋 核心要点
- 现有语音驱动的3D面部动画合成方法在保持唇音同步精度和生成逼真面部表情方面面临挑战,主要原因是跨模态映射的病态性。
- MMTalker通过网格参数化和非均匀可微采样实现3D人脸的连续表示,并利用残差图卷积网络和双重交叉注意力机制进行多模态特征融合。
- 实验结果表明,MMTalker在唇音同步和眼睛运动的准确性方面显著优于现有方法,实现了更逼真的3D说话头合成效果。
📝 摘要(中文)
本文提出了一种新颖的3D音频驱动面部动画合成方法,通过多分辨率表示和多模态特征融合,称为MMTalker,可以准确地重建3D面部运动的丰富细节。首先,通过网格参数化和非均匀可微采样实现具有细节的3D人脸的连续表示。网格参数化技术建立了UV平面和3D面部网格之间的对应关系,并用于为连续学习提供ground truth。可微非均匀采样通过在每个三角形面中设置可学习的采样概率来实现精确的面部细节获取。接下来,我们采用残差图卷积网络和双重交叉注意力机制,从多个输入模态中提取判别性面部运动特征。所提出的多模态融合策略充分利用了语音的分层特征和面部网格的显式时空几何特征。最后,一个轻量级的回归网络通过联合处理规范UV空间中的采样点和编码的面部运动特征来预测合成说话人脸的逐顶点几何位移。综合实验表明,与最先进的方法相比,取得了显著的改进,尤其是在嘴唇和眼睛运动的同步精度方面。
🔬 方法详解
问题定义:语音驱动的3D面部动画合成旨在建立从一维语音信号到随时间变化的3D面部运动信号的映射。现有方法难以同时保证唇音同步的准确性和生成逼真的面部表情,这是因为语音到面部运动的映射是一个高度病态的问题,细微的面部细节难以捕捉和重建。
核心思路:MMTalker的核心思路是利用多分辨率表示和多模态特征融合来更准确地重建3D面部运动的丰富细节。通过网格参数化和非均匀可微采样,实现对3D人脸的连续表示,从而保留更多细节信息。同时,利用残差图卷积网络和双重交叉注意力机制,充分融合语音和面部网格的特征,提高模型的表达能力。
技术框架:MMTalker的整体框架包括以下几个主要模块:1) 3D人脸表示模块:通过网格参数化和非均匀可微采样实现3D人脸的连续表示。2) 多模态特征提取模块:利用残差图卷积网络提取面部网格的特征,利用双重交叉注意力机制融合语音和面部网格的特征。3) 面部运动预测模块:利用轻量级的回归网络预测合成说话人脸的逐顶点几何位移。
关键创新:MMTalker的关键创新在于:1) 提出了基于网格参数化和非均匀可微采样的3D人脸连续表示方法,能够更精细地捕捉面部细节。2) 提出了基于残差图卷积网络和双重交叉注意力机制的多模态特征融合方法,能够更有效地融合语音和面部网格的特征。与现有方法相比,MMTalker能够生成更逼真、更准确的3D说话头动画。
关键设计:在3D人脸表示模块中,非均匀可微采样的采样概率是可学习的,允许模型根据面部区域的重要性自适应地调整采样密度。在多模态特征融合模块中,双重交叉注意力机制允许语音特征和面部网格特征相互关注,从而更好地融合两种模态的信息。损失函数包括几何损失和正则化损失,用于约束合成面部的形状和运动。
🖼️ 关键图片
📊 实验亮点
实验结果表明,MMTalker在唇音同步精度和眼睛运动的自然度方面显著优于现有方法。具体而言,MMTalker在唇音同步的指标上提升了X%,在眼睛运动的指标上提升了Y%(具体数值论文中给出)。这些结果表明,MMTalker能够生成更逼真、更自然的3D说话头动画。
🎯 应用场景
MMTalker可应用于虚拟现实、增强现实、游戏、电影制作、虚拟助手等领域。它可以用于创建逼真的虚拟角色,提升用户在虚拟环境中的沉浸感和交互体验。此外,该技术还可以用于远程会议和在线教育,生成更具表现力的虚拟化身,从而提高沟通效率。
📄 摘要(原文)
Speech-driven three-dimensional (3D) facial animation synthesis aims to build a mapping from one-dimensional (1D) speech signals to time-varying 3D facial motion signals. Current methods still face challenges in maintaining lip-sync accuracy and producing realistic facial expressions, primarily due to the highly ill-posed nature of this cross-modal mapping. In this paper, we introduce a novel 3D audio-driven facial animation synthesis method through multi-resolution representation and multi-modal feature fusion, called MMTalker which can accurately reconstruct the rich details of 3D facial motion.We first achieve the continuous representation of 3D face with details by mesh parameterization and non-uniform differentiable sampling. The mesh parameterization technique establishes the correspondence between UV plane and 3D facial mesh and is used to offer ground truth for the continuous learning. Differentiable non-uniform sampling enables precise facial detail acquisition by setting learnable sampling probability in each triangular face. Next, we employ residual graph convolutional network and dual cross-attention mechanism to extract discriminative facial motion feature from multiple input modalities. This proposed multimodal fusion strategy takes full use of the hierarchical features of speech and the explicit spatiotemporal geometric features of facial mesh. Finally, a lightweight regression network predicts the vertex-wise geometric displacements of the synthesized talking face by jointly processing the sampled points in the canonical UV space and the encoded facial motion features.Comprehensive experiments demonstrate that significant improvements are achieved over state-of-the-art methods, especially in the synchronization accuracy of lip and eye movements.