Model-Agnostic Lifelong LLM Safety via Externalized Attack-Defense Co-Evolution

📄 arXiv: 2605.13411v1 📥 PDF

作者: Xiaozhe Zhang, Chaozhuo Li, Hui Liu, Shaocheng Yan, Bingyu Yan, Qiwei Ye, Haoliang Li

分类: cs.CR, cs.CL

发布日期: 2026-05-13

备注: 48 pages, 7 figures


💡 一句话要点

EvoSafety:通过外部化攻防协同进化实现模型无关的终身LLM安全

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型安全 对抗攻击 红队测试 防御机制 模型无关 终身学习 攻防协同进化

📋 核心要点

  1. 现有LLM安全方法依赖闭环策略,攻击发现易饱和,防御机制缺乏泛化能力,难以适应新型攻击。
  2. EvoSafety通过外部化的攻防协同进化,构建持久、可检查和可重用的结构,提升LLM的安全性。
  3. 实验表明,EvoSafety在防御成功率和参数效率上均优于现有方法,同时保持了对良性查询的推理性能。

📝 摘要(中文)

大型语言模型(LLM)仍然容易受到对抗性提示的攻击,这些提示会引发有害的输出。现有的安全范式通常将红队测试和后训练耦合在一个封闭的、以策略为中心的循环中,导致攻击发现迅速饱和,限制了新型失败模式的暴露,同时使防御效率低下、僵化且难以跨受害者模型转移。为此,我们提出了EvoSafety,一个围绕持久、可检查和可重用的外部结构构建的LLM安全框架。对于红队测试,EvoSafety为攻击策略配备了一个对抗性技能库,通过在饱和后简单地扩展库来实现持续的漏洞探测,同时支持对抗性向量的演化。对于防御学习,EvoSafety用一个轻量级的辅助防御模型(增强了记忆检索)取代了特定于模型的安全微调。这实现了高效、可转移和模型无关的安全改进,同时允许仅通过记忆更新来增强鲁棒性。通过一个单一的训练过程,防御策略可以在Steer和Guard两种模式下运行:前者激活受害者模型的内在防御机制,而后者直接过滤有害输入。大量的实验表明了EvoSafety的优越性:在Guard模式下,它实现了99.61%的防御成功率,超过了Qwen3Guard-8B 14.13%,而参数量仅为其37.5%,同时保留了对良性查询的推理性能。警告:本文包含潜在的有害文本。

🔬 方法详解

问题定义:现有的大型语言模型安全方法存在以下痛点:一是红队测试容易饱和,无法持续发现新的攻击模式;二是防御机制通常是模型特定的,难以迁移到其他模型上;三是防御策略僵化,难以适应不断演化的攻击。

核心思路:EvoSafety的核心思路是将攻击和防御过程外部化,通过构建一个持久、可检查和可重用的外部结构来实现模型无关的终身LLM安全。具体来说,EvoSafety使用一个对抗性技能库来增强攻击策略,并使用一个轻量级的辅助防御模型来取代模型特定的安全微调。这样,攻击和防御都可以独立地演化,从而提高LLM的安全性。

技术框架:EvoSafety包含两个主要模块:红队测试模块和防御学习模块。红队测试模块使用一个对抗性技能库来生成对抗性提示,并使用进化算法来优化这些提示。防御学习模块使用一个轻量级的辅助防御模型来预测输入是否为有害的,并根据预测结果来采取相应的措施。防御模型可以在Steer和Guard两种模式下运行。Steer模式激活受害者模型的内在防御机制,Guard模式直接过滤有害输入。

关键创新:EvoSafety的关键创新在于将攻击和防御过程外部化,并使用一个对抗性技能库和一个轻量级的辅助防御模型来实现模型无关的终身LLM安全。与现有方法相比,EvoSafety可以持续发现新的攻击模式,并且可以轻松地迁移到其他模型上。此外,EvoSafety的防御策略可以根据攻击的演化而不断更新,从而提高LLM的安全性。

关键设计:EvoSafety的对抗性技能库包含一系列预定义的对抗性技能,例如插入特殊字符、改变词序等。进化算法使用这些技能来生成对抗性提示,并根据提示的攻击成功率来优化这些提示。辅助防御模型是一个轻量级的神经网络,它接收输入文本作为输入,并输出一个概率值,表示输入文本为有害的概率。防御模型的训练目标是最小化有害输入的概率,并最大化良性输入的概率。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

EvoSafety在Guard模式下实现了99.61%的防御成功率,超过了Qwen3Guard-8B 14.13%,而参数量仅为其37.5%。同时,EvoSafety在防御有害输入的同时,也能够保持对良性查询的推理性能,避免了过度防御的问题。

🎯 应用场景

EvoSafety可应用于各种需要保障LLM安全性的场景,例如智能客服、内容生成、代码生成等。通过持续的攻防演练,EvoSafety可以帮助LLM开发者及时发现和修复安全漏洞,提高LLM的鲁棒性和可靠性,从而降低LLM被恶意利用的风险。

📄 摘要(原文)

Large language models remain vulnerable to adversarial prompts that elicit harmful outputs. Existing safety paradigms typically couple red-teaming and post-training in a closed, policy-centric loop, causing attack discovery to suffer from rapid saturation and limiting the exposure of novel failure modes, while leaving defenses inefficient, rigid, and difficult to transfer across victim models. To this end, we propose EvoSafety, an LLM safety framework built around persistent, inspectable, and reusable external structures. For red teaming, EvoSafety equips the attack policy with an adversarial skill library, enabling continued vulnerability probing through simple library expansion after saturation, while supporting the evolution of adversarial vectors. For defense learning, EvoSafety replaces model-specific safety fine-tuning with a lightweight auxiliary defense model augmented with memory retrieval. This enables efficient, transferable, and model-agnostic safety improvements, while allowing robustness to be enhanced solely through memory updates. With a single training procedure, the defense policy can operate in both Steer and Guard modes: the former activates the victim model's intrinsic defense mechanisms, while the latter directly filters harmful inputs. Extensive experiments demonstrate the superiority of EvoSafety: in Guard mode, it achieves a 99.61% defense success rate, outperforming Qwen3Guard-8B by 14.13% with only 37.5% of its parameters, while preserving reasoning performance on benign queries. Warning: This paper contains potentially harmful text.