Exploring Talking Head Models With Adjacent Frame Prior for Speech-Preserving Facial Expression Manipulation

📄 arXiv: 2601.12876v1 📥 PDF

作者: Zhenxuan Lu, Zhihua Xu, Zhijing Yang, Feng Gao, Yongyi Lu, Keze Wang, Tianshui Chen

分类: cs.CV

发布日期: 2026-01-19

备注: Accepted by ACM Transactions on Multimedia Computing, Communications, and Applications


💡 一句话要点

提出THFEM框架,结合语音驱动头部生成模型与表情操控,提升唇形同步精度

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 面部表情操控 语音保持 唇形同步 头部生成 相邻帧学习

📋 核心要点

  1. 现有SPFEM方法在面部表情操控时,难以保证唇形与语音的精确同步,这是一个核心挑战。
  2. THFEM框架利用AD-THG模型生成唇形同步的帧,并引入相邻帧学习策略提升图像质量和表情保真度。
  3. 实验表明,THFEM框架在表情操控过程中能有效保留嘴部形状,验证了AD-THG与SPFEM集成的优势。

📝 摘要(中文)

语音保持的面部表情操控(SPFEM)旨在改变图像和视频中的面部表情,同时保留原始的嘴部动作。尽管取得了一些进展,但由于面部表情和嘴部形状之间复杂的相互作用,SPFEM在精确的唇形同步方面仍然面临挑战。本研究利用音频驱动的头部生成(AD-THG)模型在合成精确唇部动作方面的先进能力,提出了一种将这些模型与SPFEM集成的新方法。我们提出了一个名为Talking Head Facial Expression Manipulation (THFEM) 的新框架,该框架利用 AD-THG 模型从音频输入和 SPFEM 修改后的图像生成具有精确同步唇部动作的帧。为了解决AD-THG模型生成过多帧时图像真实性和表情保真度下降的问题,我们开发了一种相邻帧学习策略,对 AD-THG 模型进行微调,以预测连续帧序列。该策略使模型能够整合来自相邻帧的信息,从而显著提高测试期间的图像质量。 广泛的实验评估表明,该框架有效地在表情操控过程中保留了嘴部形状,突出了集成 AD-THG 与 SPFEM 的显著优势。

🔬 方法详解

问题定义:论文旨在解决语音保持的面部表情操控(SPFEM)中唇形同步不准确的问题。现有方法难以在改变面部表情的同时,保证嘴唇动作与原始语音的精确匹配,导致生成视频的真实感和可用性降低。

核心思路:论文的核心思路是将音频驱动的头部生成(AD-THG)模型与SPFEM相结合。AD-THG模型擅长根据音频生成逼真的唇部动作,因此可以用来修正SPFEM过程中产生的唇形不匹配问题。此外,为了解决AD-THG模型生成过多帧时可能出现的图像质量下降问题,论文提出了相邻帧学习策略。

技术框架:THFEM框架主要包含两个阶段:首先,使用SPFEM方法对原始图像进行面部表情操控,得到表情改变后的图像。然后,将表情改变后的图像和对应的音频输入到AD-THG模型中,生成具有精确唇形同步的视频帧。为了提高生成视频的质量,论文还引入了相邻帧学习策略对AD-THG模型进行微调。

关键创新:论文的关键创新在于将AD-THG模型引入到SPFEM任务中,利用AD-THG模型强大的唇形生成能力来提升SPFEM的唇形同步精度。此外,相邻帧学习策略也是一个重要的创新点,它通过让模型学习相邻帧之间的关系,有效地提高了生成视频的图像质量和表情保真度。与现有方法相比,THFEM框架能够更有效地在表情操控过程中保留嘴部形状,从而生成更逼真、更自然的视频。

关键设计:相邻帧学习策略通过修改AD-THG模型的训练方式来实现。具体来说,模型不再是独立地预测每一帧,而是预测一个连续的帧序列。在训练过程中,模型会同时考虑当前帧和相邻帧的信息,从而学习到帧与帧之间的时序关系。损失函数的设计也至关重要,需要平衡唇形同步的准确性和图像质量。具体的参数设置和网络结构细节在论文中应该有更详细的描述(未知)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,THFEM框架在表情操控过程中能够更有效地保留嘴部形状,显著提升了唇形同步的准确性。具体的性能数据和对比基线(例如,与不使用AD-THG模型的SPFEM方法相比的提升幅度)需要在论文中查找(未知)。相邻帧学习策略也显著提高了生成视频的图像质量。

🎯 应用场景

该研究成果可应用于虚拟形象定制、电影特效制作、在线会议等领域。通过精确控制虚拟人物的面部表情和唇形动作,可以提升用户体验和沟通效率。未来,该技术有望进一步发展,实现更加自然、逼真的人机交互。

📄 摘要(原文)

Speech-Preserving Facial Expression Manipulation (SPFEM) is an innovative technique aimed at altering facial expressions in images and videos while retaining the original mouth movements. Despite advancements, SPFEM still struggles with accurate lip synchronization due to the complex interplay between facial expressions and mouth shapes. Capitalizing on the advanced capabilities of audio-driven talking head generation (AD-THG) models in synthesizing precise lip movements, our research introduces a novel integration of these models with SPFEM. We present a new framework, Talking Head Facial Expression Manipulation (THFEM), which utilizes AD-THG models to generate frames with accurately synchronized lip movements from audio inputs and SPFEM-altered images. However, increasing the number of frames generated by AD-THG models tends to compromise the realism and expression fidelity of the images. To counter this, we develop an adjacent frame learning strategy that finetunes AD-THG models to predict sequences of consecutive frames. This strategy enables the models to incorporate information from neighboring frames, significantly improving image quality during testing. Our extensive experimental evaluations demonstrate that this framework effectively preserves mouth shapes during expression manipulations, highlighting the substantial benefits of integrating AD-THG with SPFEM.