Evolving Jailbreaks: Automated Multi-Objective Long-Tail Attacks on Large Language Models

📄 arXiv: 2603.20122v1 📥 PDF

作者: Wenjing Hong, Zhonghua Rong, Li Wang, Feng Chang, Jian Zhu, Ke Tang, Zexuan Zhu, Yew-Soon Ong

分类: cs.CR, cs.AI

发布日期: 2026-03-20


💡 一句话要点

提出EvoJail框架以自动化发现长尾攻击策略

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 长尾攻击 大型语言模型 自动化框架 多目标优化 进化搜索 安全性评估 隐私保护

📋 核心要点

  1. 现有方法主要依赖手工规则,无法系统评估长尾分布下的安全性和隐私漏洞。
  2. EvoJail框架通过多目标进化搜索自动生成长尾攻击提示,优化攻击效果与输出困惑度。
  3. 实验结果表明,EvoJail在发现长尾攻击策略方面表现优异,且与现有方法相比具有竞争力。

📝 摘要(中文)

大型语言模型(LLMs)广泛应用于网络平台,面临来自多样化用户输入的风险,尤其是长尾分布的攻击。现有方法依赖手工规则,限制了对安全性和隐私漏洞的系统评估。本文提出EvoJail,一个通过多目标进化搜索自动发现长尾攻击的框架。EvoJail将攻击提示生成视为多目标优化问题,旨在最大化攻击效果并最小化输出困惑度,采用语义-算法表示法捕捉高层语义意图和低层结构变换。通过集成LLM辅助操作符,EvoJail实现了高效探索复杂搜索空间的能力。实验表明,EvoJail能有效发现多样化的长尾攻击策略,性能与现有方法相当。

🔬 方法详解

问题定义:本文旨在解决大型语言模型面临的长尾攻击问题,现有方法依赖手工规则,缺乏系统性和自动化,限制了对安全和隐私漏洞的评估。

核心思路:EvoJail通过将长尾攻击提示生成视为多目标优化问题,设计了一个自动化框架,旨在同时最大化攻击效果和最小化输出困惑度,以提高攻击的有效性和隐蔽性。

技术框架:EvoJail的整体架构包括多个模块:首先是攻击提示生成模块,其次是多目标优化模块,最后是LLM辅助操作符的集成。这些模块协同工作,形成一个高效的进化搜索过程。

关键创新:EvoJail的主要创新在于引入了语义-算法表示法,能够同时捕捉高层语义意图和低层结构变换,与传统手工规则方法相比,具有更高的灵活性和适应性。

关键设计:在参数设置上,EvoJail采用了多目标优化算法,损失函数设计为同时考虑攻击效果和输出困惑度,网络结构则结合了LLM的能力,以实现高效的变异和交叉操作。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,EvoJail在发现长尾攻击策略方面表现出色,能够有效生成多样化的攻击提示。在与现有方法的对比中,EvoJail在个体和集成水平上均展现出竞争力,证明了其在长尾攻击领域的有效性和创新性。

🎯 应用场景

EvoJail框架的潜在应用场景包括网络安全、模型安全性评估和隐私保护等领域。通过自动化发现长尾攻击策略,EvoJail能够帮助研究人员和开发者更好地理解和防御大型语言模型的安全风险,提升模型的安全性和可靠性。未来,该框架可能推动更广泛的安全性研究和应用。

📄 摘要(原文)

Large Language Models (LLMs) have been widely deployed, especially through free Web-based applications that expose them to diverse user-generated inputs, including those from long-tail distributions such as low-resource languages and encrypted private data. This open-ended exposure increases the risk of jailbreak attacks that undermine model safety alignment. While recent studies have shown that leveraging long-tail distributions can facilitate such jailbreaks, existing approaches largely rely on handcrafted rules, limiting the systematic evaluation of these security and privacy vulnerabilities. In this work, we present EvoJail, an automated framework for discovering long-tail distribution attacks via multi-objective evolutionary search. EvoJail formulates long-tail attack prompt generation as a multi-objective optimization problem that jointly maximizes attack effectiveness and minimizes output perplexity, and introduces a semantic-algorithmic solution representation to capture both high-level semantic intent and low-level structural transformations of encryption-decryption logic. Building upon this representation, EvoJail integrates LLM-assisted operators into a multi-objective evolutionary framework, enabling adaptive and semantically informed mutation and crossover for efficiently exploring a highly structured and open-ended search space. Extensive experiments demonstrate that EvoJail consistently discovers diverse and effective long-tail jailbreak strategies, achieving competitive performance with existing methods in both individual and ensemble level.