Unlocking the Capabilities of Large Vision-Language Models for Generalizable and Explainable Deepfake Detection

作者: Peipeng Yu, Jianwei Fei, Hui Gao, Xuan Feng, Zhihua Xia, Chip Hong Chang

分类: cs.CV

发布日期: 2025-03-19 (更新: 2025-06-07)

备注: Accepted by ICML 2025

💡 一句话要点

提出知识引导的伪造检测框架，提升大视觉语言模型在深度伪造检测中的泛化性和可解释性

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 深度伪造检测 大型视觉语言模型 知识引导 伪造提示学习 多模态融合

📋 核心要点

现有深度伪造检测方法泛化性不足，且缺乏可解释性，难以适应复杂场景。
提出知识引导的伪造检测框架，利用LVLM的知识和推理能力，提升检测性能。
实验表明，该框架在多个数据集上超越了现有方法，并支持多轮对话交互。

📝 摘要（中文）

当前的大型视觉语言模型(LVLMs)在理解多模态数据方面表现出了卓越的能力，但由于其知识与取证模式的不对齐，它们在深度伪造检测方面的潜力仍未得到充分挖掘。为此，我们提出了一个新颖的框架，以释放LVLMs在深度伪造检测方面的潜在能力。我们的框架包括一个知识引导的伪造检测器(KFD)、一个伪造提示学习器(FPL)和一个大型语言模型(LLM)。KFD用于计算图像特征与原始/深度伪造图像描述嵌入之间的相关性，从而实现伪造分类和定位。KFD的输出随后由伪造提示学习器处理，以构建细粒度的伪造提示嵌入。这些嵌入，连同视觉和问题提示嵌入，被输入到LLM中，以生成文本检测响应。在包括FF++、CDF2、DFD、DFDCP、DFDC和DF40在内的多个基准上的大量实验表明，我们的方案在泛化性能方面优于最先进的方法，同时还支持多轮对话能力。

🔬 方法详解

问题定义：现有深度伪造检测方法在面对未知的伪造技术或不同数据集时，泛化能力较差。此外，这些方法通常缺乏可解释性，难以解释其检测结果，限制了其在实际应用中的可信度。

核心思路：论文的核心思路是利用大型视觉语言模型（LVLM）的强大知识库和推理能力，将图像特征与伪造知识对齐，从而提高深度伪造检测的泛化性和可解释性。通过学习伪造提示，引导LVLM关注图像中与伪造相关的区域和特征。

技术框架：该框架主要包含三个模块：知识引导的伪造检测器（KFD）、伪造提示学习器（FPL）和大型语言模型（LLM）。首先，KFD计算图像特征与原始/伪造图像描述嵌入之间的相关性，用于伪造分类和定位。然后，FPL处理KFD的输出，构建细粒度的伪造提示嵌入。最后，将伪造提示嵌入、视觉和问题提示嵌入输入到LLM中，生成文本检测响应。

关键创新：该论文的关键创新在于提出了一个知识引导的伪造检测框架，该框架能够利用LVLM的知识和推理能力，将图像特征与伪造知识对齐，从而提高深度伪造检测的泛化性和可解释性。与现有方法相比，该框架能够更好地适应未知的伪造技术和不同数据集。

关键设计：KFD使用对比学习方法，学习图像特征与原始/伪造图像描述嵌入之间的相关性。FPL使用Transformer结构，学习细粒度的伪造提示嵌入。LLM使用预训练的语言模型，并进行微调，以生成文本检测响应。具体的损失函数和网络结构等技术细节在论文中有详细描述。

🖼️ 关键图片

📊 实验亮点

该框架在多个深度伪造检测基准数据集（包括FF++、CDF2、DFD、DFDCP、DFDC和DF40）上进行了广泛的实验，结果表明，该框架在泛化性能方面优于最先进的方法。此外，该框架还支持多轮对话能力，能够提供更详细的检测结果和解释。

🎯 应用场景

该研究成果可应用于社交媒体平台、新闻媒体机构等，用于自动检测和识别深度伪造内容，防止虚假信息的传播和恶意攻击。此外，该技术还可用于安全监控、身份验证等领域，提高系统的安全性和可靠性。未来，该技术有望在打击网络犯罪、维护社会稳定方面发挥重要作用。

📄 摘要（原文）

Current Large Vision-Language Models (LVLMs) have demonstrated remarkable capabilities in understanding multimodal data, but their potential remains underexplored for deepfake detection due to the misalignment of their knowledge and forensics patterns. To this end, we present a novel framework that unlocks LVLMs' potential capabilities for deepfake detection. Our framework includes a Knowledge-guided Forgery Detector (KFD), a Forgery Prompt Learner (FPL), and a Large Language Model (LLM). The KFD is used to calculate correlations between image features and pristine/deepfake image description embeddings, enabling forgery classification and localization. The outputs of the KFD are subsequently processed by the Forgery Prompt Learner to construct fine-grained forgery prompt embeddings. These embeddings, along with visual and question prompt embeddings, are fed into the LLM to generate textual detection responses. Extensive experiments on multiple benchmarks, including FF++, CDF2, DFD, DFDCP, DFDC, and DF40, demonstrate that our scheme surpasses state-of-the-art methods in generalization performance, while also supporting multi-turn dialogue capabilities.

Unlocking the Capabilities of Large Vision-Language Models for Generalizable and Explainable Deepfake Detection

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理