THRD: A Training-Free Multi-Turn Defense Framework for Jailbreak Attacks on Large Language Models

📄 arXiv: 2606.01738v1 📥 PDF

作者: Zhiqing Ma, Zhonghao Xu, Dong Yu, Chen Kang, Changliang Li, Pengyuan Liu

分类: cs.CL, cs.AI

发布日期: 2026-06-01


💡 一句话要点

提出THRD,一种免训练的多轮对话防御框架,用于抵御大语言模型的越狱攻击。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 越狱攻击 多轮对话 安全防御 风险评估

📋 核心要点

  1. 现有防御方法无法有效应对多轮对话中风险累积的越狱攻击,通常依赖昂贵的再训练或单轮独立分析。
  2. THRD通过显式建模时间风险累积,利用轮级风险评估、历史上下文分析和响应评估,实现免训练的多轮防御。
  3. 实验表明,THRD在显著降低攻击成功率的同时,保持了模型效用,并在不同架构上表现出良好的泛化能力。

📝 摘要(中文)

多轮越狱攻击利用对话动态(如逐步升级和跨轮协同)对大型语言模型构成日益严重的威胁。现有的防御方法要么依赖于代价高昂的再训练(通常会降低模型效用),要么独立地对每一轮应用单轮分析,无法捕捉风险沿交互轨迹的累积方式。我们观察到,多轮交互中的安全行为是轨迹相关的:对话历史不断重塑模型的条件上下文,使得孤立地评估每一轮是不够的。基于此,我们提出了THRD,这是第一个免训练的框架,它显式地对多轮越狱防御中的时间风险累积进行建模。THRD集成了四个模块:用于即时风险评估的轮级风险评估器(TRA),用于跨轮意图升级检测的历史上下文分析器(HCA),用于识别促进性输出的响应评估器(RE),以及通过基于衰减的调制和趋势感知调整的时间演化评分机制组合这些信号的决策模块。针对最先进的多轮攻击(包括基于树搜索和多智能体协作的方法)在两个目标模型上进行的实验表明,THRD将攻击成功率(ASR)降低到0.2-4.0%,同时在MMLU和GSM8K上保持模型效用在1.5%的降级范围内。消融研究证实了非冗余模块贡献和稳定的跨架构泛化。对首次拒绝触发器的分析表明,超过70%的多轮攻击需要第2轮或之后才能检测到,验证了显式时间聚合的必要性。

🔬 方法详解

问题定义:论文旨在解决多轮对话场景下,大型语言模型(LLM)容易受到越狱攻击的问题。现有的防御方法主要存在两个痛点:一是需要大量的再训练,这不仅耗费资源,还会降低模型的通用性;二是将多轮对话拆解为单轮独立分析,忽略了对话历史对模型行为的影响,无法有效捕捉风险的累积效应。

核心思路:论文的核心思路是显式地建模多轮对话中的时间风险累积。作者观察到,在多轮对话中,模型的行为受到对话历史的强烈影响,因此不能孤立地评估每一轮的风险。通过对历史信息的分析,可以更好地预测和防御潜在的越狱攻击。

技术框架:THRD框架包含四个主要模块:1) 轮级风险评估器 (TRA):用于评估当前轮对话的即时风险;2) 历史上下文分析器 (HCA):用于检测跨轮对话中意图的升级,例如攻击者逐渐引导模型到危险话题;3) 响应评估器 (RE):用于评估模型的响应是否会助长越狱攻击;4) 决策模块:该模块结合前三个模块的输出,通过一个时间演化的评分机制来决定是否阻止模型的响应。该评分机制包含基于衰减的调制和趋势感知的调整,以更好地模拟风险的累积过程。

关键创新:THRD最关键的创新在于其免训练的设计和对时间风险累积的显式建模。与需要大量训练数据的现有方法不同,THRD不需要额外的训练,可以直接应用于现有的LLM。通过对历史上下文的分析和对风险累积的建模,THRD能够更有效地检测和防御多轮越狱攻击。

关键设计:THRD的关键设计包括:1) HCA模块如何检测意图升级(具体方法未知);2) 决策模块中时间演化评分机制的具体公式,包括衰减因子和趋势感知调整的计算方法(具体公式未知);3) TRA和RE模块的具体实现方式,例如使用的风险评估指标和响应评估标准(具体实现未知)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,THRD在两个目标模型上,针对包括基于树搜索和多智能体协作的最先进多轮攻击,将攻击成功率(ASR)降低到0.2-4.0%,同时在MMLU和GSM8K基准测试中,模型效用仅降低1.5%。消融实验验证了各个模块的有效性,并证明了THRD在不同模型架构上的泛化能力。对首次拒绝触发器的分析表明,超过70%的多轮攻击需要在第二轮或之后才能被检测到,突显了时间聚合的重要性。

🎯 应用场景

THRD框架可广泛应用于各种需要安全对话的大型语言模型应用场景,例如智能客服、聊天机器人、内容生成平台等。通过有效防御多轮越狱攻击,THRD能够提升LLM的安全性,降低恶意利用的风险,从而保障用户体验和平台安全。未来,该研究可以进一步扩展到其他类型的对抗性攻击防御,并与其他安全技术相结合,构建更强大的LLM安全体系。

📄 摘要(原文)

Multi-turn jailbreak attacks pose a growing threat to LLMs by exploiting conversational dynamics such as gradual escalation and cross-turn coordination. Existing defenses either rely on costly retraining -- often degrading model utility -- or apply single-turn analysis independently at each turn, failing to capture how risk accumulates along interaction trajectories. We observe that safety behavior in multi-turn interaction is trajectory-dependent: dialogue history continuously reshapes the model's conditioning context, making it insufficient to evaluate each turn in isolation. Motivated by this insight, we present THRD, the first training-free framework that explicitly models temporal risk accumulation for multi-turn jailbreak defense. THRD integrates four modules: a Turn-level Risk Assessor (TRA) for instantaneous risk estimation, a Historical Context Analyzer (HCA) for cross-turn intent escalation detection, a Response Evaluator (RE) for identifying facilitative outputs, and a Decision Module that combines these signals through a time-evolving scoring mechanism with attenuation-based modulation and trend-aware adjustment. Experiments against state-of-the-art multi-turn attacks -- including tree-search-based and multi-agent collaborative methods -- across two target models show that THRD reduces ASR to 0.2--4.0% while preserving model utility within 1.5% degradation on MMLU and GSM8K. Ablation studies confirm non-redundant module contributions and stable cross-architecture generalization. Analysis of first rejection triggers reveals that over 70% of multi-turn attacks require Turn~2 or later to detect, validating the necessity of explicit temporal aggregation.