CapsFake: A Multimodal Capsule Network for Detecting Instruction-Guided Deepfakes

📄 arXiv: 2504.19212v1 📥 PDF

作者: Tuan Nguyen, Naseem Khan, Issa Khalil

分类: cs.CV, cs.AI

发布日期: 2025-04-27

备注: 20 pages


💡 一句话要点

CapsFake:提出多模态胶囊网络,用于检测指令引导的深度伪造图像。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 深度伪造检测 多模态融合 胶囊网络 指令引导编辑 图像篡改

📋 核心要点

  1. 现有深度伪造检测方法难以有效识别指令引导的、上下文相关的图像编辑,对人类和机器都具有很强的欺骗性。
  2. CapsFake通过融合视觉、文本和频域信息,利用胶囊网络动态聚合局部特征,从而精确定位被篡改的区域。
  3. 实验表明,CapsFake在多个数据集上显著优于现有方法,检测精度提升高达20%,并对自然扰动和对抗攻击具有鲁棒性。

📝 摘要(中文)

深度伪造技术的快速发展,尤其是在指令引导的图像编辑方面,通过实现微妙的、上下文感知的操作,威胁着数字图像的完整性。这些编辑通常由真实图像和文本提示有条件地生成,对于人类和现有的检测系统来说往往难以察觉,揭示了当前防御措施的显著局限性。我们提出了一种新颖的多模态胶囊网络CapsFake,旨在通过整合来自视觉、文本和频域模态的低级胶囊来检测此类深度伪造图像编辑。通过竞争路由机制预测的高级胶囊,动态地聚合局部特征,以精确识别被操纵的区域。在包括MagicBrush、Unsplash Edits、Open Images Edits和Multi-turn Edits在内的各种数据集上进行评估,CapsFake的检测精度比最先进的方法高出20%。消融研究验证了其鲁棒性,在自然扰动下实现了94%以上的检测率,在对抗性攻击下实现了96%以上的检测率,并且对未见过的编辑场景具有出色的泛化能力。这种方法为对抗复杂的图像操作建立了一个强大的框架。

🔬 方法详解

问题定义:论文旨在解决指令引导的深度伪造图像检测问题。现有的深度伪造检测方法在面对由文本指令引导的、上下文相关的图像编辑时表现不佳,因为这些编辑往往非常微妙,难以察觉。现有的方法通常侧重于检测明显的伪造痕迹,而忽略了上下文信息和细微的篡改。

核心思路:论文的核心思路是利用多模态信息(视觉、文本和频域)以及胶囊网络的优势来检测深度伪造图像。通过融合不同模态的信息,模型可以更好地理解图像的上下文和语义,从而更准确地识别被篡改的区域。胶囊网络能够保留图像的局部特征之间的关系,并动态地聚合这些特征,从而提高检测的精度和鲁棒性。

技术框架:CapsFake的整体架构包括三个主要模态的特征提取模块(视觉、文本、频域),以及一个胶囊网络。首先,使用预训练的卷积神经网络(CNN)提取图像的视觉特征,使用文本编码器(如BERT)提取文本提示的语义特征,并使用离散余弦变换(DCT)提取图像的频域特征。然后,将这些特征输入到胶囊网络中,该网络由低级胶囊和高级胶囊组成。低级胶囊负责提取局部特征,高级胶囊通过竞争路由机制动态地聚合这些局部特征,以识别被操纵的区域。最后,使用一个分类器来判断图像是否为深度伪造。

关键创新:CapsFake的关键创新在于以下几点:1) 多模态融合:同时利用视觉、文本和频域信息,从而更全面地理解图像的上下文和语义。2) 胶囊网络:使用胶囊网络来动态地聚合局部特征,从而提高检测的精度和鲁棒性。3) 竞争路由机制:使用竞争路由机制来选择最相关的低级胶囊,从而更好地识别被操纵的区域。与现有方法的本质区别在于,CapsFake能够更好地利用上下文信息和细微的篡改痕迹,从而更准确地检测深度伪造图像。

关键设计:在视觉模态中,使用了预训练的ResNet-50作为特征提取器。在文本模态中,使用了预训练的BERT模型。在频域模态中,使用了离散余弦变换(DCT)来提取图像的频域特征。胶囊网络的结构包括两层胶囊:低级胶囊和高级胶囊。低级胶囊的数量和维度根据不同的模态而有所不同。高级胶囊的数量设置为16。使用动态路由算法来更新胶囊之间的连接权重。损失函数包括分类损失和重构损失。分类损失使用交叉熵损失函数。重构损失用于鼓励胶囊网络学习到更具代表性的特征。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

CapsFake在MagicBrush、Unsplash Edits、Open Images Edits和Multi-turn Edits等数据集上进行了评估,结果表明其检测精度比最先进的方法高出20%。在自然扰动下,CapsFake的检测率超过94%,在对抗性攻击下超过96%。此外,CapsFake还表现出良好的泛化能力,能够有效检测未见过的编辑场景。

🎯 应用场景

CapsFake技术可应用于多个领域,包括社交媒体平台的内容审核、新闻媒体的真实性验证、金融领域的欺诈检测以及法律领域的证据分析。该技术能够有效识别经过指令引导的深度伪造图像,从而维护数字内容的真实性和可信度,防止虚假信息传播,保障社会安全。

📄 摘要(原文)

The rapid evolution of deepfake technology, particularly in instruction-guided image editing, threatens the integrity of digital images by enabling subtle, context-aware manipulations. Generated conditionally from real images and textual prompts, these edits are often imperceptible to both humans and existing detection systems, revealing significant limitations in current defenses. We propose a novel multimodal capsule network, CapsFake, designed to detect such deepfake image edits by integrating low-level capsules from visual, textual, and frequency-domain modalities. High-level capsules, predicted through a competitive routing mechanism, dynamically aggregate local features to identify manipulated regions with precision. Evaluated on diverse datasets, including MagicBrush, Unsplash Edits, Open Images Edits, and Multi-turn Edits, CapsFake outperforms state-of-the-art methods by up to 20% in detection accuracy. Ablation studies validate its robustness, achieving detection rates above 94% under natural perturbations and 96% against adversarial attacks, with excellent generalization to unseen editing scenarios. This approach establishes a powerful framework for countering sophisticated image manipulations.