CapsFake: A Multimodal Capsule Network for Detecting Instruction-Guided Deepfakes

作者: Tuan Nguyen, Naseem Khan, Issa Khalil

分类: cs.CV, cs.AI

发布日期: 2025-04-27

备注: 20 pages

💡 一句话要点

CapsFake：提出多模态胶囊网络，用于检测指令引导的深度伪造图像。

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 深度伪造检测 多模态融合 胶囊网络 指令引导编辑 图像篡改

📋 核心要点

现有深度伪造检测方法难以有效识别指令引导的、上下文相关的图像编辑，对人类和机器都具有很强的欺骗性。
CapsFake通过融合视觉、文本和频域信息，利用胶囊网络动态聚合局部特征，从而精确定位被篡改的区域。
实验表明，CapsFake在多个数据集上显著优于现有方法，检测精度提升高达20%，并对自然扰动和对抗攻击具有鲁棒性。

📝 摘要（中文）

深度伪造技术的快速发展，尤其是在指令引导的图像编辑方面，通过实现微妙的、上下文感知的操作，威胁着数字图像的完整性。这些编辑通常由真实图像和文本提示有条件地生成，对于人类和现有的检测系统来说往往难以察觉，揭示了当前防御措施的显著局限性。我们提出了一种新颖的多模态胶囊网络CapsFake，旨在通过整合来自视觉、文本和频域模态的低级胶囊来检测此类深度伪造图像编辑。通过竞争路由机制预测的高级胶囊，动态地聚合局部特征，以精确识别被操纵的区域。在包括MagicBrush、Unsplash Edits、Open Images Edits和Multi-turn Edits在内的各种数据集上进行评估，CapsFake的检测精度比最先进的方法高出20%。消融研究验证了其鲁棒性，在自然扰动下实现了94%以上的检测率，在对抗性攻击下实现了96%以上的检测率，并且对未见过的编辑场景具有出色的泛化能力。这种方法为对抗复杂的图像操作建立了一个强大的框架。

🔬 方法详解

问题定义：论文旨在解决指令引导的深度伪造图像检测问题。现有的深度伪造检测方法在面对由文本指令引导的、上下文相关的图像编辑时表现不佳，因为这些编辑往往非常微妙，难以察觉。现有的方法通常侧重于检测明显的伪造痕迹，而忽略了上下文信息和细微的篡改。

核心思路：论文的核心思路是利用多模态信息（视觉、文本和频域）以及胶囊网络的优势来检测深度伪造图像。通过融合不同模态的信息，模型可以更好地理解图像的上下文和语义，从而更准确地识别被篡改的区域。胶囊网络能够保留图像的局部特征之间的关系，并动态地聚合这些特征，从而提高检测的精度和鲁棒性。

技术框架：CapsFake的整体架构包括三个主要模态的特征提取模块（视觉、文本、频域），以及一个胶囊网络。首先，使用预训练的卷积神经网络（CNN）提取图像的视觉特征，使用文本编码器（如BERT）提取文本提示的语义特征，并使用离散余弦变换（DCT）提取图像的频域特征。然后，将这些特征输入到胶囊网络中，该网络由低级胶囊和高级胶囊组成。低级胶囊负责提取局部特征，高级胶囊通过竞争路由机制动态地聚合这些局部特征，以识别被操纵的区域。最后，使用一个分类器来判断图像是否为深度伪造。

关键创新：CapsFake的关键创新在于以下几点：1) 多模态融合：同时利用视觉、文本和频域信息，从而更全面地理解图像的上下文和语义。2) 胶囊网络：使用胶囊网络来动态地聚合局部特征，从而提高检测的精度和鲁棒性。3) 竞争路由机制：使用竞争路由机制来选择最相关的低级胶囊，从而更好地识别被操纵的区域。与现有方法的本质区别在于，CapsFake能够更好地利用上下文信息和细微的篡改痕迹，从而更准确地检测深度伪造图像。

关键设计：在视觉模态中，使用了预训练的ResNet-50作为特征提取器。在文本模态中，使用了预训练的BERT模型。在频域模态中，使用了离散余弦变换（DCT）来提取图像的频域特征。胶囊网络的结构包括两层胶囊：低级胶囊和高级胶囊。低级胶囊的数量和维度根据不同的模态而有所不同。高级胶囊的数量设置为16。使用动态路由算法来更新胶囊之间的连接权重。损失函数包括分类损失和重构损失。分类损失使用交叉熵损失函数。重构损失用于鼓励胶囊网络学习到更具代表性的特征。

🖼️ 关键图片

📊 实验亮点

CapsFake在MagicBrush、Unsplash Edits、Open Images Edits和Multi-turn Edits等数据集上进行了评估，结果表明其检测精度比最先进的方法高出20%。在自然扰动下，CapsFake的检测率超过94%，在对抗性攻击下超过96%。此外，CapsFake还表现出良好的泛化能力，能够有效检测未见过的编辑场景。

🎯 应用场景

CapsFake技术可应用于多个领域，包括社交媒体平台的内容审核、新闻媒体的真实性验证、金融领域的欺诈检测以及法律领域的证据分析。该技术能够有效识别经过指令引导的深度伪造图像，从而维护数字内容的真实性和可信度，防止虚假信息传播，保障社会安全。

📄 摘要（原文）

The rapid evolution of deepfake technology, particularly in instruction-guided image editing, threatens the integrity of digital images by enabling subtle, context-aware manipulations. Generated conditionally from real images and textual prompts, these edits are often imperceptible to both humans and existing detection systems, revealing significant limitations in current defenses. We propose a novel multimodal capsule network, CapsFake, designed to detect such deepfake image edits by integrating low-level capsules from visual, textual, and frequency-domain modalities. High-level capsules, predicted through a competitive routing mechanism, dynamically aggregate local features to identify manipulated regions with precision. Evaluated on diverse datasets, including MagicBrush, Unsplash Edits, Open Images Edits, and Multi-turn Edits, CapsFake outperforms state-of-the-art methods by up to 20% in detection accuracy. Ablation studies validate its robustness, achieving detection rates above 94% under natural perturbations and 96% against adversarial attacks, with excellent generalization to unseen editing scenarios. This approach establishes a powerful framework for countering sophisticated image manipulations.

CapsFake: A Multimodal Capsule Network for Detecting Instruction-Guided Deepfakes

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理