Synthetic Data Generation for Emotional Depth Faces: Optimizing Conditional DCGANs via Genetic Algorithms in the Latent Space and Stabilizing Training with Knowledge Distillation
作者: Seyed Muhammad Hossein Mousavi, S. Younes Mirinezhad
分类: cs.CV
发布日期: 2025-08-07
💡 一句话要点
提出基于遗传算法优化条件DCGAN和知识蒸馏的情感深度人脸合成方法。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 情感识别 深度人脸 生成对抗网络 遗传算法 知识蒸馏 数据增强 条件GAN
📋 核心要点
- 情感计算缺乏高质量、多样化的深度人脸数据集,限制了对细微情感表达的识别。
- 利用遗传算法优化GAN的潜在向量,并结合知识蒸馏稳定训练,提升生成深度人脸的多样性和质量。
- 实验表明,该方法在生成质量和多样性上优于现有方法,并在情感分类任务中取得了较高的准确率。
📝 摘要(中文)
本文提出了一种用于合成情感深度人脸的框架,旨在解决情感计算中高质量、多样化深度人脸数据集的匮乏问题,尤其是在识别细微情感表达方面。该框架利用优化的GAN,并结合知识蒸馏(EMA教师模型)来稳定训练,提高生成质量,并防止模型崩溃。此外,应用遗传算法基于图像统计信息进化GAN的潜在向量,从而提升目标情感的生成多样性和视觉质量。实验结果表明,该方法在多样性和质量方面均优于GAN、VAE、GMM和KDE等方法。在分类任务中,通过提取并连接LBP、HOG、Sobel边缘和强度直方图特征,使用XGBoost实现了94%和96%的准确率。使用FID、IS、SSIM和PSNR等指标的评估结果表明,该方法相对于现有技术具有持续的改进。
🔬 方法详解
问题定义:论文旨在解决情感计算领域中高质量、多样性深度人脸数据集匮乏的问题。现有方法难以生成足够逼真和多样化的深度人脸数据,尤其是在捕捉细微情感表达方面,这限制了情感识别算法的性能。
核心思路:论文的核心思路是结合遗传算法优化的条件DCGAN和知识蒸馏技术,生成高质量、多样性的情感深度人脸数据。通过遗传算法在GAN的潜在空间中搜索,优化生成图像的统计特征,提高多样性。利用知识蒸馏,从EMA教师模型中学习,稳定GAN的训练过程,提高生成质量。
技术框架:整体框架包含以下几个主要模块:1) 条件DCGAN:使用条件DCGAN作为基础生成模型,控制生成人脸的情感类别。2) 遗传算法优化:使用遗传算法在DCGAN的潜在空间中搜索,目标是最大化生成图像的多样性和质量。3) 知识蒸馏:使用EMA(指数移动平均)教师模型,通过知识蒸馏稳定DCGAN的训练过程,提高生成图像的质量。4) 特征提取与分类:提取LBP、HOG、Sobel边缘和强度直方图特征,并使用XGBoost进行情感分类。
关键创新:最重要的技术创新点在于结合了遗传算法和知识蒸馏来优化条件DCGAN的训练过程。遗传算法能够有效地探索GAN的潜在空间,提高生成图像的多样性,而知识蒸馏能够稳定GAN的训练,提高生成图像的质量。这种结合克服了传统GAN训练中容易出现的模式崩溃和训练不稳定等问题。
关键设计:在遗传算法中,使用图像的统计特征(如均值、方差等)作为适应度函数,引导遗传算法搜索能够生成具有目标统计特征的潜在向量。在知识蒸馏中,使用EMA教师模型来提供更稳定的训练目标,并使用KL散度作为蒸馏损失函数。DCGAN的网络结构采用标准的卷积神经网络结构,并使用批量归一化和ReLU激活函数。
📊 实验亮点
实验结果表明,该方法在生成深度人脸的多样性和质量方面均优于GAN、VAE、GMM和KDE等方法。在情感分类任务中,通过提取LBP、HOG、Sobel边缘和强度直方图特征,使用XGBoost实现了94%和96%的准确率。使用FID、IS、SSIM和PSNR等指标的评估结果表明,该方法相对于现有技术具有持续的改进。
🎯 应用场景
该研究成果可应用于情感识别、人机交互、虚拟现实等领域。高质量的情感深度人脸数据集能够提升情感识别算法的性能,改善人机交互的自然性和真实感。此外,该方法还可以用于生成特定情感的虚拟角色,应用于游戏、电影等领域。
📄 摘要(原文)
Affective computing faces a major challenge: the lack of high-quality, diverse depth facial datasets for recognizing subtle emotional expressions. We propose a framework for synthetic depth face generation using an optimized GAN with Knowledge Distillation (EMA teacher models) to stabilize training, improve quality, and prevent mode collapse. We also apply Genetic Algorithms to evolve GAN latent vectors based on image statistics, boosting diversity and visual quality for target emotions. The approach outperforms GAN, VAE, GMM, and KDE in both diversity and quality. For classification, we extract and concatenate LBP, HOG, Sobel edge, and intensity histogram features, achieving 94% and 96% accuracy with XGBoost. Evaluation using FID, IS, SSIM, and PSNR shows consistent improvement over state-of-the-art methods.