Towards Zero-Shot Differential Morphing Attack Detection with Multimodal Large Language Models

📄 arXiv: 2505.15332v1 📥 PDF

作者: Ria Shekhawat, Hailin Li, Raghavendra Ramachandra, Sushma Venkatesh

分类: cs.CV

发布日期: 2025-05-21

备注: Accepted at IEEE International Conference on Automatic Face and Gesture Recognition (FG 2025)


💡 一句话要点

利用多模态大语言模型实现零样本差分人脸合成攻击检测

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 人脸合成攻击检测 差分攻击 思维链 零样本学习

📋 核心要点

  1. 现有的人脸合成攻击检测方法在真实场景中泛化能力不足,且缺乏可解释性。
  2. 利用多模态大语言模型,结合图像和文本信息,进行推理判断,提升检测性能。
  3. 实验表明,ChatGPT-4o在检测GAN合成人脸方面优于Gemini,但两者在复杂场景下仍有挑战。

📝 摘要(中文)

本研究探索了利用多模态大语言模型(LLM)来提高人脸合成攻击检测(MAD)的准确性和可解释性,尤其是在实际生物识别应用中。论文首次将多模态LLM应用于差分人脸合成攻击检测(D-MAD),并设计了基于思维链(CoT)的提示工程,以减少回答失败率并增强决策背后的推理。研究贡献包括:首次使用真实生物识别数据将多模态LLM应用于D-MAD;基于CoT的提示工程以提高响应可靠性和可解释性;使用来自54名受试者的数据对LLM性能进行全面的定性和定量基准测试;以及对ChatGPT-4o和Gemini两种多模态LLM进行比较分析,深入了解它们在人脸合成攻击检测方面的准确性和决策透明度。实验结果表明,ChatGPT-4o在检测准确性方面优于Gemini,尤其是在对抗基于GAN的合成人脸时,但两种模型在具有挑战性的条件下都表现不佳。Gemini提供更一致的解释,而ChatGPT-4o更具弹性,但更容易出现回答失败的情况。

🔬 方法详解

问题定义:论文旨在解决差分人脸合成攻击检测(D-MAD)问题。现有方法在检测人脸图像经过细微修改后的攻击时,准确率较低,且缺乏对检测结果的解释性。尤其是在零样本场景下,模型需要具备较强的泛化能力,才能应对未知的攻击类型。

核心思路:论文的核心思路是利用多模态大语言模型(LLM)的强大推理能力,结合人脸图像和文本描述,对人脸图像的真实性进行判断。通过设计合适的提示(Prompt),引导LLM进行“思维链(Chain-of-Thought, CoT)”推理,从而提高检测准确率和可解释性。

技术框架:整体框架包括以下几个主要阶段:1) 输入人脸图像和预设的CoT提示;2) 多模态LLM(如ChatGPT-4o或Gemini)处理输入,生成包含推理过程和最终判断的文本输出;3) 对LLM的输出进行解析,提取最终的检测结果(是否为合成攻击)和推理过程。框架的关键在于CoT提示的设计,它引导LLM逐步分析人脸图像的特征,并结合已知的合成攻击模式进行判断。

关键创新:论文的关键创新在于首次将多模态LLM应用于D-MAD问题,并提出了基于CoT的提示工程方法。与传统的基于深度学习的检测方法相比,该方法具有更强的泛化能力和可解释性,能够应对未知的合成攻击类型,并提供决策依据。

关键设计:CoT提示的设计是关键。提示需要包含以下几个要素:1) 对人脸图像的描述,例如“这张人脸图像显示了一个年轻女性,她的眼睛是棕色的,头发是黑色的”;2) 对合成攻击的描述,例如“人脸合成攻击通常会引入一些不自然的特征,例如模糊的边缘或不一致的光照”;3) 引导LLM进行推理的问题,例如“这张人脸图像是否存在任何不自然的特征?如果是,这些特征是否表明这是一张合成人脸?”。此外,论文还比较了不同LLM(ChatGPT-4o和Gemini)的性能,并分析了它们在不同场景下的优缺点。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,ChatGPT-4o在D-MAD任务中表现优于Gemini,尤其是在检测基于GAN的合成人脸时。尽管如此,两种模型在复杂场景下仍面临挑战。ChatGPT-4o虽然检测准确率更高,但更容易出现回答失败的情况,而Gemini则提供更一致的解释。该研究为利用多模态LLM进行人脸合成攻击检测提供了有价值的参考。

🎯 应用场景

该研究成果可应用于身份验证、安全监控、金融风控等领域,有效防范人脸合成攻击带来的风险。通过提高人脸识别系统的安全性,保护个人隐私和财产安全。未来,该技术可进一步应用于移动支付、社交媒体等场景,构建更安全可靠的网络环境。

📄 摘要(原文)

Leveraging the power of multimodal large language models (LLMs) offers a promising approach to enhancing the accuracy and interpretability of morphing attack detection (MAD), especially in real-world biometric applications. This work introduces the use of LLMs for differential morphing attack detection (D-MAD). To the best of our knowledge, this is the first study to employ multimodal LLMs to D-MAD using real biometric data. To effectively utilize these models, we design Chain-of-Thought (CoT)-based prompts to reduce failure-to-answer rates and enhance the reasoning behind decisions. Our contributions include: (1) the first application of multimodal LLMs for D-MAD using real data subjects, (2) CoT-based prompt engineering to improve response reliability and explainability, (3) comprehensive qualitative and quantitative benchmarking of LLM performance using data from 54 individuals captured in passport enrollment scenarios, and (4) comparative analysis of two multimodal LLMs: ChatGPT-4o and Gemini providing insights into their morphing attack detection accuracy and decision transparency. Experimental results show that ChatGPT-4o outperforms Gemini in detection accuracy, especially against GAN-based morphs, though both models struggle under challenging conditions. While Gemini offers more consistent explanations, ChatGPT-4o is more resilient but prone to a higher failure-to-answer rate.