FED-Bench: A Cross-Granular Benchmark for Disentangled Evaluation of Facial Expression Editing

📄 arXiv: 2603.29697v1 📥 PDF

作者: Fengjian Xue, Xuecheng Wu, Heli Sun, Yunyun Shi, Shi Chen, Liangyu Fu, Jinheng Xie, Dingkang Yang, Hao Wang, Junxiao Xue, Liang He

分类: cs.CV

发布日期: 2026-03-31


💡 一句话要点

提出FED-Bench,用于解耦评估面部表情编辑的跨粒度基准。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 面部表情编辑 图像编辑 基准数据集 评估指标 解耦评估

📋 核心要点

  1. 现有面部表情编辑基准缺乏高质量数据和细粒度指令,评估指标存在偏差,难以准确衡量编辑效果。
  2. FED-Bench通过构建高质量数据集和提出FED-Score评估指标,实现对面部表情编辑的解耦评估。
  3. 实验表明,现有方法难以兼顾高保真度和准确的表情操作,FED-Bench提供的训练集能有效提升模型性能。

📝 摘要(中文)

面部表情图像编辑需要精细的控制,以严格保留人物身份和背景,同时精确地操纵表情。然而,现有的编辑基准主要集中在一般场景,缺乏高质量的面部图像和相应的编辑指令。此外,当前的评估指标在这种任务中表现出系统性偏差,通常偏爱惰性编辑或过拟合编辑。为了弥合这些差距,我们提出了FED-Bench,一个全面的基准,具有严格的测试和准确的评估套件。首先,我们通过级联和可扩展的管道精心构建了一个包含747个三元组的基准,每个三元组包含一个原始图像、一个编辑指令和一个用于精确评估的真实图像。其次,我们引入了FED-Score,一种跨粒度评估协议,将评估解耦为三个维度:用于验证指令遵循的对齐度、用于测试图像质量和身份保持的保真度,以及用于量化表情变化幅度的相对表情增益,从而有效缓解了上述评估偏差。第三,我们对18个图像编辑模型进行了基准测试,发现当前的方法难以同时实现高保真度和准确的表情操作,其中精细的指令遵循是主要的瓶颈。最后,利用引入的基准引擎的可扩展特性,我们提供了一个20k+的野外面部训练集,并通过微调一个基线模型证明了其有效性,该模型实现了显著的性能提升。我们的基准和相关代码将很快公开。

🔬 方法详解

问题定义:现有面部表情编辑基准数据集质量不高,缺乏细粒度的编辑指令,导致模型训练和评估存在偏差。现有的评估指标容易偏向于简单的复制粘贴或者过拟合,无法真实反映模型在表情编辑方面的能力。

核心思路:构建一个高质量、包含细粒度编辑指令的基准数据集FED-Bench,并设计一个解耦的评估指标FED-Score,从对齐度、保真度和表情增益三个维度综合评估面部表情编辑的效果。通过这种方式,可以更准确地衡量模型在表情编辑方面的能力,并为未来的研究提供更好的平台。

技术框架:FED-Bench的构建流程包括:1) 数据收集:收集大量包含不同表情的面部图像。2) 指令生成:为每张图像生成对应的编辑指令,例如“微笑”、“愤怒”等。3) 图像编辑:使用图像编辑模型根据指令生成编辑后的图像。4) 人工校对:对生成的图像进行人工校对,确保图像质量和编辑效果。FED-Score的计算流程包括:1) 对齐度评估:评估编辑后的图像是否符合编辑指令。2) 保真度评估:评估编辑后的图像是否保持了原始图像的身份信息和背景。3) 表情增益评估:评估编辑后的图像的表情强度是否达到了预期效果。

关键创新:FED-Bench的关键创新在于其高质量的数据集和解耦的评估指标。数据集包含大量高质量的面部图像和细粒度的编辑指令,可以为模型训练提供更好的数据支持。评估指标FED-Score从对齐度、保真度和表情增益三个维度综合评估编辑效果,可以更准确地衡量模型在表情编辑方面的能力。

关键设计:FED-Score的具体计算方式未知,论文中可能没有详细公开。但可以推测,对齐度评估可能使用面部关键点检测和相似度计算;保真度评估可能使用人脸识别模型和图像质量评估指标;表情增益评估可能使用表情识别模型和强度估计。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文对18个图像编辑模型进行了基准测试,发现现有方法难以同时实现高保真度和准确的表情操作。通过在FED-Bench提供的20k+野外面部训练集上微调基线模型,性能得到了显著提升,证明了该基准数据集的有效性。具体提升幅度未知,需要在论文公开后进一步分析。

🎯 应用场景

该研究成果可应用于人机交互、虚拟现实、社交媒体等领域。例如,可以用于创建更逼真的虚拟化身,或者用于增强社交媒体应用的表情包功能。此外,该基准数据集和评估指标可以促进面部表情编辑领域的研究进展。

📄 摘要(原文)

Facial expression image editing requires fine-grained control to strictly preserve human identity and background while precisely manipulating expression. However, existing editing benchmarks primarily focus on general scenarios, lacking high-quality facial images and corresponding editing instructions. Furthermore, current evaluation metrics exhibit systemic biases in this task, often favoring lazy editing or overfit editing. To bridge these gaps, we propose FED-Bench, a comprehensive benchmark featuring rigorous testing and an accurate evaluation suite. First, we carefully construct a benchmark of 747 triplets through a cascaded and scalable pipeline, each comprising an original image, an editing instruction, and a ground-truth image for precise evaluation. Second, we introduce FED-Score, a cross-granularity evaluation protocol that disentangles assessment into three dimensions: Alignment for verifying instruction following, Fidelity for testing image quality and identity preservation, and Relative Expression Gain for quantifying the magnitude of expression changes, effectively mitigating the aforementioned evaluation biases. Third, we benchmark 18 image editing models, revealing that current approaches struggle to simultaneously achieve high fidelity and accurate expression manipulation, with fine-grained instruction following identified as the primary bottleneck. Finally, leveraging the scalable characteristic of introduced benchmark engine, we provide a 20k+ in-the-wild facial training set and demonstrate its effectiveness by fine-tuning a baseline model that achieves significant performance gains. Our benchmark and related code will be made publicly open soon.