ID-Consistent, Precise Expression Generation with Blendshape-Guided Diffusion

📄 arXiv: 2510.04706v1 📥 PDF

作者: Foivos Paraperas Papantoniou, Stefanos Zafeiriou

分类: cs.CV

发布日期: 2025-10-06

备注: ICCVW 2025, Code: https://github.com/foivospar/Arc2Face

🔗 代码/项目: GITHUB


💡 一句话要点

提出Blendshape引导的扩散模型,实现身份保持和精准表情生成。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 扩散模型 人脸生成 表情控制 身份保持 FLAME模型

📋 核心要点

  1. 现有AI驱动的生成模型在精细表情控制和身份保持方面面临挑战,难以兼顾两者。
  2. 论文提出一种基于扩散模型的框架,利用FLAME blendshape参数引导表情生成,实现精准控制。
  3. 实验表明,该模型在表情生成质量和身份保持方面优于现有方法,并能处理微表情。

📝 摘要(中文)

本文提出了一种基于扩散模型的框架,旨在忠实地重塑任何主体在任何特定面部表情下的形象。该框架建立在身份一致的面部基础模型之上,采用了一种组合式设计,其中包含一个由FLAME blendshape参数引导的表情交叉注意力模块,用于显式控制表情。该模型在包含丰富表情变化的图像和视频数据混合集上进行训练,能够泛化到细微的微表情和表情过渡,这些是先前工作所忽略的。此外,一个可插拔的参考适配器通过在合成过程中从参考帧转移外观,从而实现真实图像中的表情编辑。大量的定量和定性评估表明,我们的模型在定制和身份一致的表情生成方面优于现有方法。

🔬 方法详解

问题定义:现有的人脸生成模型难以在保持身份一致性的同时,实现对表情的精细控制。尤其是在处理微表情和表情过渡时,效果往往不尽如人意。这限制了其在AI驱动的故事叙述等领域的应用。

核心思路:论文的核心思路是利用FLAME blendshape参数作为显式的表情控制信号,通过一个表情交叉注意力模块引导扩散模型的生成过程。这种方式能够解耦身份和表情,从而实现对表情的精准控制,同时保持身份的一致性。

技术框架:整体框架基于一个身份一致的面部基础模型,并在此基础上添加了一个表情交叉注意力模块和一个可插拔的参考适配器。表情交叉注意力模块接收FLAME blendshape参数作为输入,并将其融入到扩散模型的生成过程中。参考适配器则允许从参考图像中提取外观信息,用于编辑真实图像的表情。

关键创新:最重要的创新点在于使用FLAME blendshape参数作为显式的表情控制信号,并将其融入到扩散模型的生成过程中。这种方式能够实现对表情的精准控制,同时保持身份的一致性。此外,模型能够处理微表情和表情过渡,这是现有方法所忽略的。

关键设计:表情交叉注意力模块的设计是关键。该模块将FLAME blendshape参数映射到一个高维特征空间,然后通过交叉注意力机制将其融入到扩散模型的中间特征中。损失函数方面,使用了重建损失和对抗损失,以保证生成图像的质量和真实感。参考适配器通过学习参考图像和生成图像之间的映射关系,实现外观的转移。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该模型在身份保持和表情控制方面均优于现有方法。定量评估显示,在表情相似度指标上,该模型取得了显著提升。定性评估也表明,该模型能够生成更自然、更逼真的表情,并能处理微表情和表情过渡。

🎯 应用场景

该研究成果可广泛应用于AI驱动的故事叙述、虚拟形象生成、人机交互、以及电影和游戏制作等领域。通过精准控制面部表情,可以创造更生动、更具表现力的人物形象,提升用户体验,并为内容创作提供新的可能性。

📄 摘要(原文)

Human-centric generative models designed for AI-driven storytelling must bring together two core capabilities: identity consistency and precise control over human performance. While recent diffusion-based approaches have made significant progress in maintaining facial identity, achieving fine-grained expression control without compromising identity remains challenging. In this work, we present a diffusion-based framework that faithfully reimagines any subject under any particular facial expression. Building on an ID-consistent face foundation model, we adopt a compositional design featuring an expression cross-attention module guided by FLAME blendshape parameters for explicit control. Trained on a diverse mixture of image and video data rich in expressive variation, our adapter generalizes beyond basic emotions to subtle micro-expressions and expressive transitions, overlooked by prior works. In addition, a pluggable Reference Adapter enables expression editing in real images by transferring the appearance from a reference frame during synthesis. Extensive quantitative and qualitative evaluations show that our model outperforms existing methods in tailored and identity-consistent expression generation. Code and models can be found at https://github.com/foivospar/Arc2Face.