SEMA: Simple yet Effective Learning for Multi-Turn Jailbreak Attacks

作者: Mingqian Feng, Xiaodong Liu, Weiwei Yang, Jialin Song, Xuekai Zhu, Chenliang Xu, Jianfeng Gao

分类: cs.CL

发布日期: 2026-02-06

备注: ICLR 2026, 37 pages, 13 tables, 7 figures

🔗 代码/项目: GITHUB

💡 一句话要点

提出SEMA框架，通过自调优预填充和意图感知强化学习，有效提升多轮对抗攻击成功率。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多轮越狱攻击 对抗攻击 大型语言模型安全 强化学习 意图漂移 红队测试 自调优预填充

📋 核心要点

现有方法在多轮对抗攻击中面临探索复杂性和意图漂移的挑战，导致攻击成功率较低。
SEMA框架通过自调优预填充和意图感知强化学习，在没有外部数据或现有策略的情况下训练多轮攻击者。
实验结果表明，SEMA在多个数据集和模型上实现了最先进的攻击成功率，显著优于现有方法。

📝 摘要（中文）

多轮越狱攻击能够捕捉到安全对齐聊天机器人的真实威胁模型，而单轮攻击仅仅是其中的一个特例。然而，现有的方法在探索复杂性和意图漂移下会失效。我们提出了SEMA，一个简单而有效的框架，它训练一个多轮攻击者，而无需依赖任何现有的策略或外部数据。SEMA包括两个阶段：预填充自调优通过在非拒绝、结构良好的多轮对抗提示上进行微调来实现可用的rollout，这些提示是通过最小的前缀自生成的，从而稳定了后续的学习。具有意图漂移感知奖励的强化学习训练攻击者，以引出有效的多轮对抗提示，同时保持相同的有害目标。我们通过结合意图对齐、合规风险和细节程度的意图漂移感知奖励，将有害意图锚定在多轮越狱中。我们的开放循环攻击机制避免了对受害者反馈的依赖，统一了单轮和多轮设置，并降低了探索复杂性。在多个数据集、受害者模型和越狱评判器上，我们的方法实现了最先进的（SOTA）攻击成功率（ASR），优于所有单轮基线、手动脚本和模板驱动的多轮基线，以及我们的SFT（监督微调）和DPO（直接偏好优化）变体。例如，在AdvBench上，SEMA在三个闭源和开源受害者模型上的平均ASR@1为80.1%，比SOTA高33.9%。该方法紧凑、可复现，并且可以跨目标转移，为大型语言模型（LLM）安全性提供了更强大和更现实的压力测试，并支持自动红队测试以暴露和定位故障模式。

🔬 方法详解

问题定义：论文旨在解决多轮对话场景下，大型语言模型（LLM）的越狱攻击问题。现有方法在多轮攻击中存在探索空间大、意图容易漂移等问题，导致攻击成功率低，难以有效评估LLM的安全性。

核心思路：论文的核心思路是通过两个阶段的学习过程，使攻击者能够生成有效的多轮对抗性提示。首先，通过自调优预填充（Prefilling self-tuning）生成高质量的初始对抗样本，稳定后续的强化学习过程。然后，利用意图漂移感知奖励（Intent-drift-aware reward）引导强化学习，确保攻击者在多轮对话中始终围绕有害意图展开。

技术框架：SEMA框架包含两个主要阶段：1) 自调优预填充：使用最小的前缀自生成非拒绝、结构良好的多轮对抗提示，并在此基础上进行微调，以获得可用的rollout。2) 意图感知强化学习：使用强化学习训练攻击者，使其能够生成有效的多轮对抗提示，同时通过意图漂移感知奖励来保持有害意图。该框架采用开放循环攻击机制，避免了对受害者反馈的依赖。

关键创新：SEMA的关键创新在于：1) 提出了自调优预填充方法，有效解决了多轮攻击中的探索复杂性问题。2) 设计了意图漂移感知奖励，确保攻击者在多轮对话中始终围绕有害意图展开，避免了意图漂移。3) 采用开放循环攻击机制，简化了攻击流程，提高了攻击效率。

关键设计：意图漂移感知奖励是SEMA的关键设计之一，它结合了意图对齐、合规风险和细节程度三个方面。意图对齐衡量攻击者生成的回复与有害意图的相似度；合规风险评估回复是否违反了LLM的安全策略；细节程度则鼓励攻击者提供更详细的回复，以提高攻击成功率。具体的奖励函数形式未知，但其核心思想是引导攻击者在多轮对话中保持有害意图，并尽可能地绕过LLM的安全防御。

📊 实验亮点

SEMA在AdvBench数据集上，针对三个闭源和开源的受害者模型，实现了平均80.1%的攻击成功率（ASR@1），比现有最先进方法提高了33.9%。实验结果表明，SEMA在多个数据集、受害者模型和越狱评判器上均取得了显著的性能提升，证明了其有效性和泛化能力。

🎯 应用场景

SEMA可用于评估和提升大型语言模型的安全性，通过自动化的红队测试，发现并修复LLM中的安全漏洞。该研究成果有助于构建更安全、更可靠的AI系统，降低AI被恶意利用的风险。此外，SEMA的攻击方法可以迁移到其他类型的AI系统，具有广泛的应用前景。

📄 摘要（原文）

Multi-turn jailbreaks capture the real threat model for safety-aligned chatbots, where single-turn attacks are merely a special case. Yet existing approaches break under exploration complexity and intent drift. We propose SEMA, a simple yet effective framework that trains a multi-turn attacker without relying on any existing strategies or external data. SEMA comprises two stages. Prefilling self-tuning enables usable rollouts by fine-tuning on non-refusal, well-structured, multi-turn adversarial prompts that are self-generated with a minimal prefix, thereby stabilizing subsequent learning. Reinforcement learning with intent-drift-aware reward trains the attacker to elicit valid multi-turn adversarial prompts while maintaining the same harmful objective. We anchor harmful intent in multi-turn jailbreaks via an intent-drift-aware reward that combines intent alignment, compliance risk, and level of detail. Our open-loop attack regime avoids dependence on victim feedback, unifies single- and multi-turn settings, and reduces exploration complexity. Across multiple datasets, victim models, and jailbreak judges, our method achieves state-of-the-art (SOTA) attack success rates (ASR), outperforming all single-turn baselines, manually scripted and template-driven multi-turn baselines, as well as our SFT (Supervised Fine-Tuning) and DPO (Direct Preference Optimization) variants. For instance, SEMA performs an average $80.1\%$ ASR@1 across three closed-source and open-source victim models on AdvBench, 33.9% over SOTA. The approach is compact, reproducible, and transfers across targets, providing a stronger and more realistic stress test for large language model (LLM) safety and enabling automatic redteaming to expose and localize failure modes. Our code is available at: https://github.com/fmmarkmq/SEMA.

SEMA: Simple yet Effective Learning for Multi-Turn Jailbreak Attacks

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理