SynFER: Towards Boosting Facial Expression Recognition with Synthetic Data
作者: Xilin He, Cheng Luo, Xiaole Xian, Bing Li, Muhammad Haris Khan, Zongyuan Ge, Weicheng Xie, Siyang Song, Linlin Shen, Bernard Ghanem, Xiangyu Yue
分类: cs.CV
发布日期: 2024-10-13 (更新: 2025-08-12)
备注: ICCV 2025
💡 一句话要点
SynFER:通过合成数据提升面部表情识别性能
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 面部表情识别 合成数据 数据增强 生成对抗网络 动作单元
📋 核心要点
- 面部表情数据集规模有限,阻碍了深度学习模型,特别是基础模型的性能提升。
- SynFER框架通过文本描述和面部动作单元,合成高质量、可控的面部表情图像数据。
- 实验表明,使用SynFER合成的数据进行训练,显著提升了面部表情识别的准确率。
📝 摘要(中文)
由于标注的主观性和数据收集的劳动密集型特性,面部表情数据集的规模仍然有限。这种限制对开发基于深度学习的现代面部表情分析模型,特别是依赖大规模数据以获得最佳性能的基础模型,提出了重大挑战。为了解决这个复杂的问题,本文没有引入新的大规模数据集,而是提出了SynFER(具有精细控制的面部表情合成),这是一个新颖的合成框架,用于基于高级文本描述以及通过面部动作单元进行更精细和精确的控制来合成面部表情图像数据。为了确保合成数据的质量和可靠性,我们提出了一种语义指导技术来引导生成过程,以及一个伪标签生成器来帮助纠正合成图像的面部表情标签。为了证明SynFER的生成保真度和合成数据的有效性,我们使用合成数据和真实数据进行了广泛的表征学习实验。结果验证了我们方法和合成数据的有效性。值得注意的是,我们的方法在仅使用与AffectNet训练集大小相当的合成数据进行训练时,在AffectNet上实现了67.23%的分类准确率,当扩展到原始大小的五倍时,该准确率提高到69.84%。
🔬 方法详解
问题定义:面部表情识别依赖于大规模标注数据集,但真实世界数据集的标注成本高昂且主观性强,导致数据规模受限。现有方法难以训练出泛化能力强的深度学习模型,尤其是在数据驱动的预训练和微调范式下,数据瓶颈问题尤为突出。
核心思路:本文的核心思路是利用计算机图形学和生成模型技术,合成高质量、多样化的面部表情数据,以缓解真实数据不足的问题。通过文本描述和面部动作单元(Action Units, AUs)对表情进行精细控制,并采用语义引导和伪标签生成技术,确保合成数据的质量和标签的准确性。
技术框架:SynFER框架包含以下主要模块:1) 表情描述模块:使用文本描述和AUs组合来定义目标表情。2) 图像生成模块:基于表情描述,利用生成对抗网络(GAN)或扩散模型等技术合成面部表情图像。3) 语义引导模块:通过语义约束,引导生成过程,确保合成图像与目标表情一致。4) 伪标签生成模块:利用预训练模型或专家知识,为合成图像生成伪标签,并对标签进行修正,提高标签的准确性。
关键创新:SynFER的关键创新在于:1) 精细控制的表情合成:结合文本描述和AUs,实现对表情的细粒度控制,生成更逼真、多样化的表情数据。2) 语义引导的生成过程:通过语义约束,提高生成图像的质量和与目标表情的一致性。3) 伪标签生成与修正:利用伪标签技术,降低合成数据标注成本,并提高标签的准确性。
关键设计:在图像生成模块中,可以使用StyleGAN或扩散模型等先进的生成模型。语义引导模块可以通过对抗损失或特征匹配损失来实现,鼓励生成器生成与目标表情语义一致的图像。伪标签生成模块可以使用预训练的面部表情识别模型或基于AUs的专家系统。损失函数的设计需要平衡生成图像的真实性、与目标表情的一致性和标签的准确性。
🖼️ 关键图片
📊 实验亮点
SynFER在AffectNet数据集上取得了显著的性能提升。仅使用与AffectNet训练集大小相当的合成数据进行训练,分类准确率达到67.23%。当合成数据量扩展到原始大小的五倍时,准确率进一步提升至69.84%。实验结果表明,SynFER合成的数据具有很高的质量和有效性,能够显著提升面部表情识别模型的性能。
🎯 应用场景
SynFER合成的面部表情数据可广泛应用于人机交互、情感计算、虚拟现实、游戏开发等领域。通过提升面部表情识别的准确率,可以改善用户体验,提高系统的智能化水平。该研究为解决数据稀缺问题提供了一种新的思路,具有重要的实际价值和潜在的未来影响。
📄 摘要(原文)
Facial expression datasets remain limited in scale due to the subjectivity of annotations and the labor-intensive nature of data collection. This limitation poses a significant challenge for developing modern deep learning-based facial expression analysis models, particularly foundation models, that rely on large-scale data for optimal performance. To tackle the overarching and complex challenge, instead of introducing a new large-scale dataset, we introduce SynFER (Synthesis of Facial Expressions with Refined Control), a novel synthetic framework for synthesizing facial expression image data based on high-level textual descriptions as well as more fine-grained and precise control through facial action units. To ensure the quality and reliability of the synthetic data, we propose a semantic guidance technique to steer the generation process and a pseudo-label generator to help rectify the facial expression labels for the synthetic images. To demonstrate the generation fidelity and the effectiveness of the synthetic data from SynFER, we conduct extensive experiments on representation learning using both synthetic data and real-world data. Results validate the efficacy of our approach and the synthetic data. Notably, our approach achieves a 67.23% classification accuracy on AffectNet when training solely with synthetic data equivalent to the AffectNet training set size, which increases to 69.84% when scaling up to five times the original size. Code is available here.