EvoDefense: Co-Evolving Black-Box Defense with Large Language Models

📄 arXiv: 2605.31140v1 📥 PDF

作者: Yu Li, Yuenan Hou, Yingmei Wei, Yanming Guo, Chaochao Lu

分类: cs.CR, cs.CL

发布日期: 2026-05-29


💡 一句话要点

EvoDefense:一种基于大语言模型的协同进化黑盒防御方法

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型安全 黑盒防御 协同进化 对抗攻击 经验学习

📋 核心要点

  1. 现有黑盒防御方法依赖预定义规则,泛化性差,难以应对新型攻击和不同模型。
  2. EvoDefense通过攻防协同进化,利用经验记忆动态提升防御能力,无需重新训练。
  3. 实验表明,EvoDefense在多种模型和攻击下均表现出强大的防御性能,显著降低攻击成功率。

📝 摘要(中文)

大语言模型(LLMs)在面对各种攻击时仍然非常脆弱,尤其是在无法访问目标模型内部结构的黑盒环境中。现有的黑盒防御通常依赖于预定义的过滤启发式方法,这些方法通常无法推广到未见过的攻击类型和目标模型架构。我们提出了EvoDefense,一种经验引导的协同进化黑盒防御范式。EvoDefense采用一个守卫LLM来检测恶意查询,并使用一个经验记忆模块来积累来自先前交互的防御知识。EvoDefense的核心是一个持续的攻防进化循环,其中攻击生成器和守卫模型通过经验引导的优化迭代地改进它们的攻击策略和防御策略。这种设计使EvoDefense能够在未经过重新训练的情况下推广到未见过的攻击和目标模型。在HarmBench、AdvBench和AlpacaEval上的实验表明,EvoDefense在七个流行的模型和五个代表性的LLM攻击中实现了始终如一的强大防御性能,同时保持了具有竞争力的通用能力。在HarmBench上,EvoDefense将AutoDAN-turbo在Gemini-3-flash和LLaMA-3-8B-Instruct上的攻击成功率(ASR)分别从29.4%和43.4%降低到8.4%和6.2%。

🔬 方法详解

问题定义:现有黑盒防御方法,如基于规则的过滤,难以泛化到未知的攻击类型和不同的目标模型架构。这些方法通常需要人工设计规则,成本高昂且效果有限,无法适应快速演变的攻击手段。因此,如何设计一种能够自动适应新型攻击并具有良好泛化能力的黑盒防御系统是一个关键问题。

核心思路:EvoDefense的核心思路是模拟生物进化中的攻防对抗过程,通过让攻击者和防御者在交互中不断学习和进化,从而提升防御系统的鲁棒性和泛化能力。这种协同进化的方式能够使防御系统自动适应新的攻击手段,而无需人工干预。经验记忆模块则用于存储和利用历史交互数据,加速学习过程。

技术框架:EvoDefense包含三个主要模块:攻击生成器、守卫LLM(防御模型)和经验记忆模块。攻击生成器负责生成对抗性样本,守卫LLM负责检测恶意查询并进行防御,经验记忆模块用于存储历史交互数据,包括攻击样本、防御结果和奖励信号。整个流程是一个持续的攻防进化循环:攻击生成器根据经验记忆生成新的攻击样本,守卫LLM尝试防御这些攻击,防御结果被用于更新经验记忆,并指导攻击生成器和守卫LLM的下一步行动。

关键创新:EvoDefense的关键创新在于其协同进化的攻防范式和经验引导的学习机制。与传统的静态防御方法不同,EvoDefense能够动态适应新的攻击手段,具有更强的鲁棒性和泛化能力。经验记忆模块则能够加速学习过程,提高防御效率。这种协同进化和经验引导的结合是EvoDefense能够有效防御未知攻击的关键。

关键设计:EvoDefense使用强化学习来训练攻击生成器和守卫LLM。攻击生成器的目标是最大化攻击成功率,守卫LLM的目标是最小化攻击成功率。经验记忆模块存储了历史交互数据,用于指导强化学习过程。具体的奖励函数设计需要平衡攻击成功率和防御成本,以避免过度防御或防御不足。此外,还需要仔细设计攻击生成器的搜索空间,以确保能够生成多样化的攻击样本。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

EvoDefense在HarmBench、AdvBench和AlpacaEval等多个基准测试中取得了显著的性能提升。在HarmBench上,EvoDefense将AutoDAN-turbo在Gemini-3-flash和LLaMA-3-8B-Instruct上的攻击成功率分别从29.4%和43.4%降低到8.4%和6.2%。实验结果表明,EvoDefense在防御多种攻击类型和不同模型架构方面均表现出强大的泛化能力。

🎯 应用场景

EvoDefense可应用于各种需要保护的大语言模型服务,例如智能客服、内容生成平台和代码助手等。通过自动适应新型攻击,EvoDefense能够有效提升这些服务的安全性和可靠性,降低恶意攻击带来的风险。未来,该方法还可以扩展到其他类型的AI系统,例如图像识别和语音识别系统。

📄 摘要(原文)

Large Language Models (LLMs) remain highly vulnerable to diverse attacks, particularly in black-box settings where the internals of target models are inaccessible. Existing black-box defenses typically rely on pre-defined filtering heuristics, which often fail to generalize to unseen attack types and target model architectures. We introduce EvoDefense, an experience-guided co-evolving black-box defense paradigm. EvoDefense employs a guard LLM to detect malicious queries and an experience memory module to accumulate defense knowledge from previous interactions. At the core of EvoDefense is a continuous attack-defense evolution loop, where an attack generator and the guard model iteratively refine their attack strategies and defense policies through experience-guided optimization. This design enables EvoDefense to generalize across unseen attacks and target models without retraining. Experiments on HarmBench, AdvBench, and AlpacaEval show that EvoDefense achieves consistently strong defense performance across seven popular models and five representative LLM attacks, while preserving competitive general capabilities. On HarmBench, EvoDefense reduces the attack success rate (ASR) of AutoDAN-turbo on Gemini-3-flash and LLaMA-3-8B-Instruct from 29.4% and 43.4% to 8.4% and 6.2%, respectively.