EvoGuard: An Extensible Agentic RL-based Framework for Practical and Evolving AI-Generated Image Detection

📄 arXiv: 2603.17343v1 📥 PDF

作者: Chenyang Zhu, Maorong Wang, Jun Liu, Ching-Chun Chang, Isao Echizen

分类: cs.CV

发布日期: 2026-03-18


💡 一句话要点

EvoGuard:一种基于Agentic RL的可扩展框架,用于检测不断演进的AI生成图像

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: AI生成图像检测 Agentic框架 强化学习 多模态大型语言模型 动态编排 GRPO 可扩展性

📋 核心要点

  1. 现有AIGI检测方法泛化性不足,且依赖昂贵的细粒度标注数据,难以适应快速演进的AI生成技术。
  2. EvoGuard框架将多种检测器封装为工具,利用Agent的规划和反思能力动态编排,实现优势互补。
  3. 通过基于GRPO的Agentic强化学习,EvoGuard仅使用低成本二元标签进行优化,并能即插即用集成新检测器。

📝 摘要(中文)

人工智能生成图像(AIGIs)的迅速普及带来了严重的虚假信息风险,使得AIGI检测成为一项关键但具有挑战性的任务。传统的检测方法主要依赖于低级特征,而最近的研究越来越关注利用多模态大型语言模型(MLLMs)的通用理解能力来实现更好的泛化,但仍然存在可扩展性有限和昂贵的训练数据标注问题。为了更好地应对复杂和动态的现实世界环境,我们提出了一种新颖的AIGI检测Agentic框架EvoGuard。它封装了各种最先进的(SOTA)现成的MLLM和非MLLM检测器作为可调用工具,并通过一种能力感知的动态编排机制来协调它们。凭借Agent自主规划和反思的能力,它智能地为给定样本选择合适的工具,反思中间结果,并决定下一步行动,通过多轮调用和推理得出最终结论。这种设计有效地利用了异构检测器之间的互补优势,超越了任何单一模型的局限性。此外,通过仅使用低成本二元标签的基于GRPO的Agentic强化学习算法进行优化,它消除了对细粒度注释的依赖。大量的实验表明,EvoGuard实现了SOTA的准确率,同时减轻了正负样本之间的偏差。更重要的是,它允许以无需训练的方式即插即用地集成新的检测器,以提高整体性能,从而为不断发展的AIGI威胁提供了一种高度实用且长期的解决方案。

🔬 方法详解

问题定义:当前AI生成图像(AIGIs)检测面临的主要问题是:现有方法依赖低级特征,泛化能力不足,难以应对不断涌现的新型AIGIs;同时,依赖于昂贵的细粒度标注数据,限制了其在实际场景中的应用。这些痛点使得现有方法难以适应AIGI技术的快速发展。

核心思路:EvoGuard的核心思路是将不同的AIGI检测器(包括基于MLLM和非MLLM的检测器)封装成可调用的工具,并利用一个Agent来动态地选择和编排这些工具,从而充分利用它们各自的优势。Agent通过多轮推理和反思,逐步逼近最终的检测结果。这种Agentic框架的设计旨在提高检测的准确性和鲁棒性,并降低对细粒度标注数据的依赖。

技术框架:EvoGuard框架包含以下主要模块:1) 工具库:包含各种现成的AIGI检测器,每个检测器被封装成一个工具,Agent可以调用这些工具来处理图像。2) Agent:负责接收图像输入,根据当前状态选择合适的工具进行调用,并根据工具的反馈结果进行反思和规划,决定下一步的行动。3) 环境:模拟真实世界的AIGI检测场景,提供图像样本和奖励信号。4) 强化学习优化模块:使用基于GRPO的Agentic强化学习算法来训练Agent,使其能够更好地选择和编排工具。

关键创新:EvoGuard最重要的技术创新点在于其Agentic框架的设计,它将AIGI检测问题转化为一个Agent在工具库中进行选择和编排的问题。与传统的单一模型或静态集成方法不同,EvoGuard能够根据输入图像的特点动态地选择最合适的检测器组合,从而实现更好的检测效果。此外,基于GRPO的强化学习算法使得Agent能够仅使用低成本的二元标签进行训练,大大降低了标注成本。

关键设计:EvoGuard的关键设计包括:1) 能力感知的动态编排机制:Agent在选择工具时,会考虑每个工具的能力和适用范围,从而选择最合适的工具。2) 基于GRPO的Agentic强化学习算法:该算法能够有效地训练Agent,使其能够更好地选择和编排工具。3) 多轮推理和反思机制:Agent通过多轮推理和反思,逐步逼近最终的检测结果,从而提高检测的准确性。4) 奖励函数的设计:奖励函数的设计直接影响Agent的学习效果,需要仔细考虑如何设计奖励函数,才能使Agent学会选择和编排工具。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,EvoGuard在AIGI检测任务上取得了SOTA的准确率,并有效减轻了正负样本之间的偏差。更重要的是,EvoGuard允许以无需训练的方式即插即用地集成新的检测器,从而能够快速适应不断发展的AIGI技术。具体性能数据将在论文发表后公开。

🎯 应用场景

EvoGuard可应用于各种需要检测AI生成图像的场景,例如社交媒体平台的内容审核、新闻媒体的虚假信息检测、以及版权保护等领域。该框架能够有效识别AI生成的图像,防止虚假信息的传播,维护网络安全和信息安全。未来,EvoGuard可以扩展到其他类型的AI生成内容检测,例如文本、音频和视频。

📄 摘要(原文)

The rapid proliferation of AI-Generated Images (AIGIs) has introduced severe risks of misinformation, making AIGI detection a critical yet challenging task. While traditional detection paradigms mainly rely on low-level features, recent research increasingly focuses on leveraging the general understanding ability of Multimodal Large Language Models (MLLMs) to achieve better generalization, but still suffer from limited extensibility and expensive training data annotations. To better address complex and dynamic real-world environments, we propose EvoGuard, a novel agentic framework for AIGI detection. It encapsulates various state-of-the-art (SOTA) off-the-shelf MLLM and non-MLLM detectors as callable tools, and coordinates them through a capability-aware dynamic orchestration mechanism. Empowered by the agent's capacities for autonomous planning and reflection, it intelligently selects suitable tools for given samples, reflects intermediate results, and decides the next action, reaching a final conclusion through multi-turn invocation and reasoning. This design effectively exploits the complementary strengths among heterogeneous detectors, transcending the limits of any single model. Furthermore, optimized by a GRPO-based Agentic Reinforcement Learning algorithm using only low-cost binary labels, it eliminates the reliance on fine-grained annotations. Extensive experiments demonstrate that EvoGuard achieves SOTA accuracy while mitigating the bias between positive and negative samples. More importantly, it allows the plug-and-play integration of new detectors to boost overall performance in a train-free manner, offering a highly practical, long-term solution to ever-evolving AIGI threats. Source code will be publicly available upon acceptance.