Towards General Visual-Linguistic Face Forgery Detection(V2)

📄 arXiv: 2502.20698v1 📥 PDF

作者: Ke Sun, Shen Chen, Taiping Yao, Ziyin Zhou, Jiayi Ji, Xiaoshuai Sun, Chia-Wen Lin, Rongrong Ji

分类: cs.CV

发布日期: 2025-02-28

备注: 8 pages, 5 figures, Accpet by CVPR2025

🔗 代码/项目: GITHUB


💡 一句话要点

提出FFTG,通过伪造掩码和提示策略提升视觉-语言人脸伪造检测的准确性。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 人脸伪造检测 视觉-语言模型 多模态学习 伪造掩码 提示学习

📋 核心要点

  1. 现有方法在人脸伪造检测中,标注文本描述易产生幻觉,尤其对于高质量伪造样本,导致描述不准确。
  2. 提出Face Forgery Text Generator (FFTG),利用伪造掩码进行区域和类型识别,并设计提示策略减少MLLM的幻觉。
  3. 实验表明,FFTG能生成更准确的标注,提高区域识别精度,并提升模型在多个伪造检测基准上的性能。

📝 摘要(中文)

人脸伪造技术取得了显著进展,对安全和社会信任构成了严峻挑战。最近的研究表明,利用多模态模型可以增强人脸伪造检测的泛化性和可解释性。然而,现有标注方法,无论是通过人工标注还是直接使用多模态大型语言模型(MLLM)生成,通常存在幻觉问题,导致不准确的文本描述,尤其是在高质量伪造方面。为了解决这个问题,我们提出了一种新颖的标注流程——人脸伪造文本生成器(FFTG),它通过利用伪造掩码进行初始区域和类型识别,然后采用全面的提示策略来指导MLLM减少幻觉,从而生成准确的文本描述。我们通过微调CLIP(结合单模态和多模态目标的三分支训练框架)和使用结构化标注的MLLM来验证我们的方法。实验结果表明,我们的方法不仅实现了更准确的标注和更高的区域识别精度,而且还提高了模型在各种伪造检测基准上的性能。代码已开源。

🔬 方法详解

问题定义:现有的人脸伪造检测方法,特别是依赖视觉-语言模型的方法,在生成伪造人脸的文本描述时,容易出现“幻觉”现象,即生成与图像内容不符或不准确的描述。尤其是在面对高质量的伪造人脸时,这种问题更加突出。现有的标注方法,无论是人工标注还是直接使用MLLM生成,都难以避免这个问题,从而影响了模型的训练效果和泛化能力。

核心思路:论文的核心思路是利用伪造掩码(forgery mask)作为先验知识,辅助MLLM生成更准确的文本描述。具体来说,首先利用伪造掩码确定图像中被篡改的区域和篡改类型,然后以此为基础,设计精细的提示策略(prompting strategy),引导MLLM生成更符合图像内容的描述,从而减少幻觉的产生。

技术框架:FFTG的整体流程如下:1. 伪造掩码提取:获取伪造人脸图像的伪造掩码,该掩码指示了图像中被篡改的区域。2. 区域和类型识别:利用伪造掩码识别被篡改的区域以及篡改的类型(例如,换脸、表情替换等)。3. 提示策略设计:根据识别出的区域和类型,设计特定的提示语,引导MLLM生成描述。4. MLLM文本生成:使用带有提示语的MLLM生成伪造人脸的文本描述。5. 模型训练:使用生成的文本描述,微调CLIP模型(结合单模态和多模态目标的三分支训练框架)和MLLM。

关键创新:该论文的关键创新在于提出了FFTG,一种利用伪造掩码和提示策略来生成更准确的伪造人脸文本描述的标注流程。与现有方法相比,FFTG能够有效地减少MLLM的幻觉问题,从而提高标注的准确性。此外,该论文还提出了一个三分支训练框架,结合了单模态和多模态目标,进一步提升了模型的性能。

关键设计:在提示策略设计方面,论文采用了多阶段的提示方法,首先利用伪造掩码确定区域和类型,然后逐步引导MLLM生成更详细的描述。在模型训练方面,论文采用了三分支训练框架,分别对图像、文本和图像-文本对进行训练,从而充分利用了单模态和多模态信息。具体的损失函数和网络结构细节在论文中进行了详细描述(未知)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,FFTG能够生成更准确的标注,显著提高区域识别精度。使用FFTG生成的标注训练的模型在多个伪造检测基准上取得了显著的性能提升。具体的性能数据、对比基线和提升幅度在论文中进行了详细描述(未知)。

🎯 应用场景

该研究成果可应用于提升人脸伪造检测系统的准确性和鲁棒性,在社交媒体内容审核、金融安全、身份验证等领域具有重要应用价值。通过提高对伪造人脸的识别能力,有助于维护网络安全,防止虚假信息传播,保护个人隐私和财产安全。未来,该技术有望扩展到其他类型的多媒体伪造检测任务中。

📄 摘要(原文)

Face manipulation techniques have achieved significant advances, presenting serious challenges to security and social trust. Recent works demonstrate that leveraging multimodal models can enhance the generalization and interpretability of face forgery detection. However, existing annotation approaches, whether through human labeling or direct Multimodal Large Language Model (MLLM) generation, often suffer from hallucination issues, leading to inaccurate text descriptions, especially for high-quality forgeries. To address this, we propose Face Forgery Text Generator (FFTG), a novel annotation pipeline that generates accurate text descriptions by leveraging forgery masks for initial region and type identification, followed by a comprehensive prompting strategy to guide MLLMs in reducing hallucination. We validate our approach through fine-tuning both CLIP with a three-branch training framework combining unimodal and multimodal objectives, and MLLMs with our structured annotations. Experimental results demonstrate that our method not only achieves more accurate annotations with higher region identification accuracy, but also leads to improvements in model performance across various forgery detection benchmarks. Our Codes are available in https://github.com/skJack/VLFFD.git.