The Courtroom Trial of Pixels: Robust Image Manipulation Localization via Adversarial Evidence and Reinforcement Learning Judgment

作者: Songlin Li, Zhiqing Guo, Dan Ma, Changtao Miao, Gaobo Yang

分类: cs.CV

发布日期: 2026-04-16

💡 一句话要点

提出基于对抗证据和强化学习判决的图像篡改定位方法，提升篡改区域识别鲁棒性。

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture)

关键词: 图像篡改定位 对抗学习 强化学习 数字取证 图像分割

📋 核心要点

现有图像篡改定位方法难以有效利用真实性信息，在篡改痕迹微弱时表现不佳，导致定位不准确。
论文提出法庭式判决框架，通过起诉流和辩护流提取篡改和真实证据，并由法官模型进行判决。
实验结果表明，该方法在图像篡改定位任务上取得了优于现有SOTA方法的平均性能。

📝 摘要（中文）

现有的图像篡改定位(IML)方法虽然融入了与真实性相关的监督信息，但通常仅将其作为辅助训练信号，以增强模型对篡改伪影的敏感性，而没有将其显式地建模为对抗篡改区域的定位证据。因此，当篡改痕迹细微或被后处理和噪声降级时，这些方法难以明确比较篡改和真实证据，导致在模糊区域产生不可靠的预测。为了解决这些问题，我们提出了一种法庭式判决框架，将IML任务视为证据对抗后的判决。该框架包括起诉流、辩护流和法官模型。我们首先在共享的多尺度编码器上构建一个双假设分割架构，其中起诉流断言篡改，辩护流断言真实性。在边缘先验的指导下，它通过级联多级融合、双向不一致抑制和动态辩论细化，产生篡改和真实区域的证据。我们进一步开发了一个强化学习法官模型，对不确定区域进行战略性重推理和细化，从而产生篡改区域掩码。法官模型通过基于优势的奖励和软IoU目标进行训练，并通过熵和跨假设一致性来校准可靠性。实验结果表明，与SOTA IML方法相比，我们的模型取得了优异的平均性能。

🔬 方法详解

问题定义：图像篡改定位（IML）旨在识别图像中被篡改的区域。现有方法通常将真实性信息作为辅助训练信号，缺乏对篡改和真实证据的显式建模和比较，导致在篡改痕迹细微或受损时，定位结果不准确，尤其是在模糊区域。

核心思路：论文将IML任务类比为法庭审判，构建起诉流和辩护流分别提取篡改和真实证据，并通过法官模型进行判决。这种对抗式学习方式能够更有效地利用真实性信息，提高模型对细微篡改痕迹的敏感性，从而提升定位精度。

技术框架：整体框架包含三个主要模块：起诉流、辩护流和法官模型。起诉流和辩护流共享一个多尺度编码器，分别生成篡改和真实区域的证据。通过级联多级融合、双向不一致抑制和动态辩论细化，增强证据的可靠性。法官模型则基于强化学习，对不确定区域进行重推理和细化，最终生成篡改区域掩码。

关键创新：该方法的核心创新在于将IML任务建模为证据对抗和判决过程。与现有方法不同，该方法显式地提取和比较篡改和真实证据，并通过强化学习法官模型进行判决，从而更有效地利用真实性信息，提高定位精度。此外，动态辩论细化模块和强化学习法官模型的设计也具有创新性。

关键设计：双假设分割架构采用共享多尺度编码器，以提取图像的多尺度特征。边缘先验用于指导证据提取，提高定位精度。法官模型采用强化学习进行训练，奖励函数基于优势和软IoU目标，以提高判决的准确性和鲁棒性。通过熵和跨假设一致性来校准法官模型的可靠性。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该方法在图像篡改定位任务上取得了优于现有SOTA方法的平均性能。具体而言，该方法在多个公开数据集上进行了评估，并在各种篡改类型和后处理条件下均表现出良好的鲁棒性。相较于现有方法，该方法在定位精度和泛化能力方面均有显著提升。

🎯 应用场景

该研究成果可应用于数字取证、图像内容安全、新闻真实性验证等领域。通过准确识别图像篡改区域，可以有效防止虚假信息的传播，维护社会诚信，并为司法鉴定提供技术支持。未来，该技术有望扩展到视频篡改检测等更广泛的应用场景。

📄 摘要（原文）

Although some existing image manipulation localization (IML) methods incorporate authenticity-related supervision, this information is typically utilized merely as an auxiliary training signal to enhance the model's sensitivity to manipulation artifacts, rather than being explicitly modeled as localization evidence opposing the manipulated regions. Consequently, when manipulation traces are subtle or degraded by post-processing and noise, these methods struggle to explicitly compare manipulated and authentic evidence, resulting in unreliable predictions in ambiguous areas. To address these issues, we propose a courtroom-style adjudication framework that regards IML task as the confrontation of evidence followed by judgment. The framework comprises a prosecution stream, a defense stream, and a judge model. We first build a dual-hypothesis segmentation architecture on a shared multi-scale encoder, in which the prosecution stream asserts manipulation and the defense stream asserts authenticity. Guided by edge priors, it produces evidence for manipulated and authentic regions through cascaded multi-level fusion, bidirectional disagreement suppression, and dynamic debate refinement. We further develop a reinforcement learning judge model that performs strategic re-inference and refinement on uncertain regions, yielding a manipulated-region mask. The judge model is trained with advantage-based rewards and a soft-IoU objective, and reliability is calibrated via entropy and cross-hypothesis consistency. Experimental results show that our model achieves superior average performance compared with SOTA IML methods.

The Courtroom Trial of Pixels: Robust Image Manipulation Localization via Adversarial Evidence and Reinforcement Learning Judgment

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理