Rethinking Cross-Domain Evaluation for Face Forgery Detection with Semantic Fine-grained Alignment and Mixture-of-Experts

作者: Yuhan Luo, Tao Chen, Decheng Liu

分类: cs.CV

发布日期: 2026-04-23

备注: The source code is available at https://github.com/Yuhan-Luo/Semantic-Fine-grained-Alignment-and-Mixture-of-Experts

💡 一句话要点

提出基于语义细粒度对齐和混合专家模型的SFAM框架，提升人脸伪造检测的跨域泛化能力。

🎯 匹配领域: 支柱一：机器人控制 (Robot Control)

关键词: 人脸伪造检测 跨域泛化 语义对齐 混合专家模型 Cross-AUC CLIP 图像-文本对齐

📋 核心要点

现有的人脸伪造检测方法在跨数据集泛化能力上存在不足，主要原因是缺乏能够有效评估跨域性能的指标。
论文提出Cross-AUC指标，用于评估跨数据集的检测分数可比性，并设计SFAM框架，提升模型对伪造区域的敏感性。
实验结果表明，提出的SFAM框架在多个公开数据集上取得了优于现有方法的性能，验证了其有效性。

📝 摘要（中文）

随着生成模型的快速发展，视觉数据伪造检测在社会和经济安全中扮演着越来越重要的角色。现有人脸伪造检测器由于跨数据集的泛化能力较差，无法达到令人满意的性能。导致这种现象的关键因素是缺乏合适的指标：常用的跨数据集AUC指标未能揭示检测分数可能在数据域之间显著变化的重要问题。为了显式地评估跨域分数的可比性，我们提出Cross-AUC，一种可以通过对比一个数据集的真实样本与另一个数据集的伪造样本（反之亦然）来计算跨数据集对的AUC的评估指标。有趣的是，在Cross-AUC指标下评估代表性检测器会发现性能大幅下降，暴露了一个被忽视的鲁棒性问题。此外，我们还提出了新的框架语义细粒度对齐和混合专家模型（SFAM），该框架由一个patch级别的图像-文本对齐模块（增强CLIP对操纵伪影的敏感性）和一个面部区域混合专家模块（将来自不同面部区域的特征路由到专门的专家进行区域感知伪造分析）组成。在公共数据集上进行的大量定性和定量实验证明，与各种合适的指标下的最先进方法相比，所提出的方法取得了优异的性能。

🔬 方法详解

问题定义：现有人脸伪造检测器在跨数据集评估时表现不佳，泛化能力弱。常用的跨数据集AUC指标无法有效衡量不同数据集之间检测分数的差异，导致模型在实际应用中鲁棒性不足。因此，需要一种更有效的评估指标和更具泛化能力的检测模型。

核心思路：论文的核心思路是显式地评估跨域检测分数的可比性，并增强模型对伪造区域的感知能力。通过提出Cross-AUC指标，可以更准确地评估模型在不同数据集上的性能。同时，利用语义细粒度对齐和混合专家模型，使模型能够更好地捕捉伪造痕迹，从而提高泛化能力。

技术框架：SFAM框架主要包含两个模块：patch级别的图像-文本对齐模块和面部区域混合专家模块。图像-文本对齐模块利用CLIP模型，通过patch级别的对齐增强模型对伪造区域的敏感性。面部区域混合专家模块将面部划分为多个区域，并为每个区域分配一个专家网络，从而实现区域感知的伪造分析。整体流程是：输入图像首先经过图像-文本对齐模块提取特征，然后将特征输入到面部区域混合专家模块进行分类。

关键创新：论文的关键创新点在于提出了Cross-AUC指标和SFAM框架。Cross-AUC指标能够更准确地评估跨域性能，而SFAM框架通过语义细粒度对齐和混合专家模型，提高了模型对伪造区域的感知能力，从而提升了泛化能力。与现有方法相比，SFAM框架能够更好地捕捉伪造痕迹，从而提高检测精度。

关键设计：图像-文本对齐模块使用CLIP模型，并对CLIP模型进行微调，以增强其对伪造区域的敏感性。面部区域混合专家模块将面部划分为多个区域，并为每个区域分配一个专家网络。每个专家网络由多个卷积层和全连接层组成。损失函数包括交叉熵损失和对比损失，用于训练模型。

🖼️ 关键图片

📊 实验亮点

实验结果表明，提出的SFAM框架在多个公开数据集上取得了显著的性能提升。例如，在Cross-AUC指标下，SFAM框架的性能优于现有方法，表明其具有更好的跨域泛化能力。此外，定性实验也表明，SFAM框架能够更准确地定位伪造区域，验证了其有效性。

🎯 应用场景

该研究成果可应用于社交媒体平台、金融安全、身份验证等领域，用于检测和识别伪造人脸，防止欺诈行为和虚假信息的传播。通过提高人脸伪造检测的准确性和鲁棒性，可以有效维护网络安全和社会稳定，具有重要的实际应用价值和潜在的社会影响。

📄 摘要（原文）

Nowadays, visual data forgery detection plays an increasingly important role in social and economic security with the rapid development of generative models. Existing face forgery detectors still can't achieve satisfactory performance because of poor generalization ability across datasets. The key factor that led to this phenomenon is the lack of suitable metrics: the commonly used cross-dataset AUC metric fails to reveal an important issue where detection scores may shift significantly across data domains. To explicitly evaluate cross-domain score comparability, we propose \textbf{Cross-AUC}, an evaluation metric that can compute AUC across dataset pairs by contrasting real samples from one dataset with fake samples from another (and vice versa). It is interesting to find that evaluating representative detectors under the Cross-AUC metric reveals substantial performance drops, exposing an overlooked robustness problem. Besides, we also propose the novel framework \textbf{S}emantic \textbf{F}ine-grained \textbf{A}lignment and \textbf{M}ixture-of-Experts (\textbf{SFAM}), consisting of a patch-level image-text alignment module that enhances CLIP's sensitivity to manipulation artifacts, and the facial region mixture-of-experts module, which routes features from different facial regions to specialized experts for region-aware forgery analysis. Extensive qualitative and quantitative experiments on the public datasets prove that the proposed method achieves superior performance compared with the state-of-the-art methods with various suitable metrics.

Rethinking Cross-Domain Evaluation for Face Forgery Detection with Semantic Fine-grained Alignment and Mixture-of-Experts

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理