CoopGuard: Stateful Cooperative Agents Safeguarding LLMs Against Evolving Multi-Round Attacks
作者: Siyuan Li, Zehao Liu, Xi Lin, Qinghua Mao, Yuliang Chen, Haoyu Li, Jun Wu, Jianhua Li, Xiu Su
分类: cs.CR, cs.AI
发布日期: 2026-04-07
💡 一句话要点
CoopGuard:基于合作代理的状态化防御框架,抵御LLM多轮对抗攻击
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 对抗攻击 多轮交互 防御框架 合作代理
📋 核心要点
- 现有LLM防御方法对多轮对抗攻击的适应性不足,难以应对攻击者策略的演变。
- CoopGuard通过合作代理维护防御状态,并根据交互历史动态调整策略,从而应对演变攻击。
- 实验表明,CoopGuard显著降低了攻击成功率,提高了欺骗率,并降低了攻击效率,优于现有防御方法。
📝 摘要(中文)
大型语言模型(LLM)在复杂应用中日益普及,其对抗攻击的脆弱性引发了紧迫的安全问题,特别是那些在多轮交互中不断演变的攻击。现有的防御方法大多是被动的,难以适应对抗者在多轮中不断改进的策略。本文提出了CoopGuard,一个基于合作代理的状态化多轮LLM防御框架,它维护和更新内部防御状态以对抗不断演变的攻击。它采用三个专门的代理(推迟代理、诱导代理和取证代理)来实现互补的轮级策略,由系统代理协调,系统代理根据不断演变的防御状态(交互历史)来决定决策,并随着时间的推移协调代理。为了评估不断演变的威胁,我们引入了EMRA基准,其中包含5200个跨8种攻击类型的对抗样本,模拟了渐进式的LLM多轮攻击。实验表明,CoopGuard比最先进的防御方法降低了78.9%的攻击成功率,同时提高了186%的欺骗率,并降低了167.9%的攻击效率,从而更全面地评估了多轮防御。这些结果表明,CoopGuard为多轮对抗场景中的LLM提供了强大的保护。
🔬 方法详解
问题定义:论文旨在解决大型语言模型在多轮交互中面临的对抗攻击问题。现有的防御方法通常是无状态的,无法有效应对攻击者在多轮交互中不断调整和演变的攻击策略。这些方法缺乏对历史交互信息的利用,难以识别和预测攻击者的意图,从而容易被绕过。
核心思路:CoopGuard的核心思路是引入状态化的防御机制,通过维护和更新内部防御状态来应对不断演变的攻击。它模拟了一个合作的防御团队,其中不同的代理负责不同的防御策略,并通过系统代理进行协调。这种设计允许系统根据历史交互信息动态调整防御策略,从而更好地适应攻击者的变化。
技术框架:CoopGuard框架包含四个主要代理:系统代理、推迟代理、诱导代理和取证代理。系统代理负责维护防御状态(交互历史),并根据状态协调其他代理的行动。推迟代理负责延迟响应,以收集更多信息。诱导代理负责诱导攻击者暴露其意图。取证代理负责分析交互历史,识别攻击模式。这些代理协同工作,共同构建一个强大的多轮防御系统。
关键创新:CoopGuard的关键创新在于其状态化的防御机制和合作代理的设计。与传统的无状态防御方法不同,CoopGuard能够利用历史交互信息来预测和应对攻击者的行为。合作代理的设计允许系统采用多样化的防御策略,并根据攻击者的反应动态调整策略。此外,EMRA基准的提出也为多轮对抗攻击的评估提供了一个新的平台。
关键设计:系统代理使用LLM来维护和更新防御状态,并根据状态选择合适的代理执行动作。每个代理也使用LLM来实现其特定的防御策略。具体的技术细节包括:如何编码交互历史作为防御状态,如何设计代理的行动空间,以及如何训练代理之间的协作策略。论文中可能还涉及一些超参数的设置,例如LLM的大小、训练数据集的大小等,但摘要中未提及具体数值。
🖼️ 关键图片
📊 实验亮点
实验结果表明,CoopGuard在EMRA基准测试中,相较于最先进的防御方法,攻击成功率降低了78.9%,欺骗率提高了186%,攻击效率降低了167.9%。这些数据表明,CoopGuard在多轮对抗攻击防御方面具有显著的优势,能够有效保护LLM免受攻击。
🎯 应用场景
CoopGuard可应用于各种需要与用户进行多轮交互的LLM应用,例如聊天机器人、智能客服、虚拟助手等。通过提供更强大的对抗攻击防御能力,CoopGuard可以提高这些应用的安全性、可靠性和用户信任度,并降低潜在的风险,例如信息泄露、恶意操控等。该研究对于推动LLM在安全敏感领域的应用具有重要意义。
📄 摘要(原文)
As Large Language Models (LLMs) are increasingly deployed in complex applications, their vulnerability to adversarial attacks raises urgent safety concerns, especially those evolving over multi-round interactions. Existing defenses are largely reactive and struggle to adapt as adversaries refine strategies across rounds. In this work, we propose CoopGuard , a stateful multi-round LLM defense framework based on cooperative agents that maintains and updates an internal defense state to counter evolving attacks. It employs three specialized agents (Deferring Agent, Tempting Agent, and Forensic Agent) for complementary round-level strategies, coordinated by System Agent, which conditions decisions on the evolving defense state (interaction history) and orchestrates agents over time. To evaluate evolving threats, we introduce the EMRA benchmark with 5,200 adversarial samples across 8 attack types, simulating progressively LLM multi-round attacks. Experiments show that CoopGuard reduces attack success rate by 78.9% over state-of-the-art defenses, while improving deceptive rate by 186% and reducing attack efficiency by 167.9%, offering a more comprehensive assessment of multi-round defense. These results demonstrate that CoopGuard provides robust protection for LLMs in multi-round adversarial scenarios.