Boosting Robust AIGI Detection with LoRA-based Pairwise Training

📄 arXiv: 2604.12307v1 📥 PDF

作者: Ruiyang Xia, Qi Zhang, Yaowen Xu, Zhaofan Zou, Hao Sun, Zhongjiang He, Xuelong Li

分类: cs.CV

发布日期: 2026-04-14

备注: 3th place (3/514) technical report(CVPRW-26) at the NTIRE 2026: Robust AI-Generated Image Detection in the Wild Challenge


💡 一句话要点

提出基于LoRA的Pairwise训练方法LPT,提升AIGI图像在复杂失真下的鲁棒检测性能。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: AIGI检测 鲁棒性 LoRA微调 Pairwise训练 数据增强 失真模拟

📋 核心要点

  1. 现有AIGI检测器在真实场景下,面对复杂失真时性能显著下降,鲁棒性不足是核心问题。
  2. 提出LoRA-based Pairwise Training (LPT)策略,通过微调视觉基础模型,模拟数据分布,并进行pairwise训练来提升鲁棒性。
  3. 实验结果表明,该方法在NTIRE Robust AI-Generated Image Detection in the Wild挑战赛中取得了第三名的成绩,验证了其有效性。

📝 摘要(中文)

逼真的人工智能生成图像(AIGI)的激增,使得开发实用的检测方法成为必要。虽然目前的AIGI检测器在干净的数据集上表现出色,但当部署到“野外”时,其检测性能经常会下降,因为图像会受到不可预测的复杂失真的影响。为了解决这个关键的脆弱性,我们提出了一种新颖的基于LoRA的Pairwise训练(LPT)策略,专门用于实现AIGI在严重失真下的鲁棒检测。我们策略的核心包括:对视觉基础模型进行有针对性的微调,在训练阶段有意识地模拟数据分布,以及独特的pairwise训练过程。具体来说,我们引入了失真和大小模拟,以更好地拟合验证集和测试集的数据分布。基于视觉基础模型强大的视觉表征能力,我们对模型进行微调以实现AIGI检测。pairwise训练用于通过解耦泛化和鲁棒性优化来提高检测性能。实验表明,我们的方法在NTIRE Robust AI-Generated Image Detection in the Wild挑战赛中获得了第三名。

🔬 方法详解

问题定义:论文旨在解决现有AIGI检测器在真实场景中,面对各种复杂失真(例如噪声、模糊、压缩等)时,检测性能显著下降的问题。现有方法通常在干净的数据集上训练,缺乏对真实世界数据分布的适应性,导致泛化能力不足。因此,如何提高AIGI检测器在复杂失真下的鲁棒性是本研究的核心问题。

核心思路:论文的核心思路是通过模拟真实世界的数据分布,并利用pairwise训练来解耦泛化能力和鲁棒性优化,从而提高AIGI检测器在复杂失真下的鲁棒性。具体来说,首先对视觉基础模型进行微调,使其具备初步的AIGI检测能力。然后,通过引入失真和大小模拟,使训练数据更接近真实世界的数据分布。最后,利用pairwise训练,使模型能够区分干净的AIGI图像和经过失真处理的AIGI图像,从而提高其鲁棒性。

技术框架:LPT方法的技术框架主要包括三个阶段:1) 视觉基础模型微调:使用干净的AIGI数据集对视觉基础模型进行微调,使其具备初步的AIGI检测能力。2) 数据分布模拟:引入失真和大小模拟,生成包含各种失真的AIGI图像,使训练数据更接近真实世界的数据分布。3) Pairwise训练:构建图像对,其中一对包含干净的AIGI图像和经过失真处理的AIGI图像,另一对包含两个干净的AIGI图像或两个经过失真处理的AIGI图像。利用这些图像对进行训练,使模型能够区分干净的AIGI图像和经过失真处理的AIGI图像。

关键创新:论文的关键创新在于提出了LoRA-based Pairwise Training (LPT)策略,该策略通过以下方式提高了AIGI检测器的鲁棒性:1) 利用LoRA进行高效微调,降低计算成本。2) 模拟真实世界的数据分布,提高模型的泛化能力。3) 利用pairwise训练解耦泛化能力和鲁棒性优化,使模型能够更好地适应复杂失真。与现有方法相比,LPT策略能够更有效地提高AIGI检测器在复杂失真下的鲁棒性。

关键设计:在数据分布模拟阶段,论文采用了多种失真方法,例如高斯噪声、模糊、JPEG压缩等。这些失真方法的参数是随机选择的,以模拟真实世界中各种不同的失真情况。在pairwise训练阶段,论文使用了对比损失函数,该损失函数鼓励模型将干净的AIGI图像和经过失真处理的AIGI图像区分开来。LoRA的rank大小是一个重要的超参数,需要根据具体任务进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该方法在NTIRE Robust AI-Generated Image Detection in the Wild挑战赛中获得了第三名,证明了其在复杂失真下AIGI检测的有效性。实验结果表明,LPT策略能够显著提高AIGI检测器在各种失真下的性能,优于现有的基线方法。具体的性能提升数据未知,但比赛排名证明了其有效性。

🎯 应用场景

该研究成果可应用于各种需要检测AIGI图像的场景,例如社交媒体平台的内容审核、新闻媒体的虚假信息检测、以及安全领域的恶意图像识别等。通过提高AIGI检测器在复杂失真下的鲁棒性,可以更有效地识别和过滤AIGI图像,维护网络空间的健康和安全。未来,该技术还可以扩展到其他类型的生成内容检测,例如AI生成的文本和音频。

📄 摘要(原文)

The proliferation of highly realistic AI-Generated Image (AIGI) has necessitated the development of practical detection methods. While current AIGI detectors perform admirably on clean datasets, their detection performance frequently decreases when deployed "in the wild", where images are subjected to unpredictable, complex distortions. To resolve the critical vulnerability, we propose a novel LoRA-based Pairwise Training (LPT) strategy designed specifically to achieve robust detection for AIGI under severe distortions. The core of our strategy involves the targeted finetuning of a visual foundation model, the deliberate simulation of data distribution during the training phase, and a unique pairwise training process. Specifically, we introduce distortion and size simulations to better fit the distribution from the validation and test sets. Based on the strong visual representation capability of the visual foundation model, we finetune the model to achieve AIGI detection. The pairwise training is utilized to improve the detection via decoupling the generalization and robustness optimization. Experiments show that our approach secured the 3th placement in the NTIRE Robust AI-Generated Image Detection in the Wild challenge