One Turn Too Late: Response-Aware Defense Against Hidden Malicious Intent in Multi-Turn Dialogue

📄 arXiv: 2605.05630v1 📥 PDF

作者: Xinjie Shen, Rongzhe Wei, Peizhi Niu, Haoyu Wang, Ruihan Wu, Eli Chien, Bo Li, Pin-Yu Chen, Pan Li

分类: cs.CL, cs.AI, cs.CR

发布日期: 2026-05-07

备注: Project Website: https://turn-gate.github.io/

🔗 代码/项目: GITHUB


💡 一句话要点

提出TurnGate防御框架,通过响应感知机制识别多轮对话中的隐蔽恶意意图

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 多轮对话安全 恶意意图检测 对抗防御 模型对齐 对话系统监控

📋 核心要点

  1. 现有安全护栏难以识别将恶意意图分散在多轮对话中的隐蔽攻击,导致模型在交互后期被诱导产生有害输出。
  2. 提出TurnGate监控器,通过识别对话中触发有害行为的“最早轮次”进行精准干预,平衡安全性与用户体验。
  3. 构建了MTID数据集并验证了TurnGate的有效性,实验表明其在检测性能上大幅超越现有基线,且具备强泛化性。

📝 摘要(中文)

多轮对话中的隐蔽恶意意图对大语言模型(LLM)构成严峻挑战。攻击者不再在单轮提示中暴露有害目标,而是将意图分散在多个看似良性的对话轮次中。研究表明,即便具备先进安全对齐和外部护栏的商业模型,在面对此类攻击时仍显脆弱。本文提出通过检测“最早有害轮次”来解决该问题,即识别出当模型给出特定响应时,累计交互足以触发有害行为的临界点。为此,作者构建了包含分支攻击路径、良性困难负样本及有害轮次标注的MTID数据集。基于此,作者开发了TurnGate监控器,在保持低误拒率的同时,显著提升了有害意图检测性能,并展现出良好的跨领域、跨攻击流水线及跨目标模型的泛化能力。

🔬 方法详解

问题定义:论文旨在解决多轮对话中的“隐蔽恶意意图”检测问题。现有防御机制通常针对单轮输入进行过滤,无法识别攻击者通过多轮铺垫逐步构建的有害上下文,导致模型在交互后期被诱导输出有害内容。

核心思路:核心思想是引入“响应感知(Response-Aware)”的防御机制。论文认为,判断对话是否危险的关键在于:如果模型在当前轮次给出响应,是否会导致累计交互达到有害阈值。通过定位这一“最早有害轮次”,可以在不影响良性对话的前提下进行精准拦截。

技术框架:整体框架包含数据构建与监控器训练两部分。首先构建MTID数据集,包含攻击分支路径和对应的良性困难样本;其次训练TurnGate监控器,该监控器作为对话过程中的实时守门人,根据当前对话历史和候选响应评估风险等级。

关键创新:最重要的创新在于将检测目标从“单轮输入检测”转化为“多轮交互的有害性闭合点检测”。这种方法不仅考虑了输入,还显式地将模型潜在的响应纳入评估范围,从而更准确地捕捉攻击者的意图演变。

关键设计:设计了基于对话历史与候选响应的联合编码机制,通过对MTID数据集中的有害轮次进行精细化标注,训练监控器识别对话状态的临界点。该设计有效降低了对良性对话的误拒率(Over-refusal rate),实现了安全与可用性的平衡。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验表明,TurnGate在MTID数据集上显著优于现有的单轮检测基线。在保持极低误拒率(Over-refusal rate)的同时,TurnGate在检测多轮隐蔽攻击方面的召回率有大幅提升。此外,该方法在跨模型(如GPT-4、Llama 3)、跨攻击策略及跨应用领域的测试中,均表现出极强的泛化能力,证明了其作为通用防御组件的潜力。

🎯 应用场景

该研究可广泛应用于企业级LLM部署、在线对话系统及AI客服平台。通过集成TurnGate监控器,系统能在不中断正常用户交互的前提下,有效防御针对模型安全护栏的复杂多轮诱导攻击,显著提升大模型在开放环境下的鲁棒性与安全性,降低潜在的合规与声誉风险。

📄 摘要(原文)

Hidden malicious intent in multi-turn dialogue poses a growing threat to deployed large language models (LLMs). Rather than exposing a harmful objective in a single prompt, increasingly capable attackers can distribute their intent across multiple benign-looking turns. Recent studies show that even modern commercial models with advanced guardrails remain vulnerable to such attacks despite advances in safety alignment and external guardrails. In this work, we address this challenge by detecting the earliest turn at which delivering the candidate response would make the accumulated interaction sufficient to enable harmful action. This objective requires precise turn-level intervention that identifies the harm-enabling closure point while avoiding premature refusal of benign exploratory conversations. To further support training and evaluation, we construct the Multi-Turn Intent Dataset (MTID), which contains branching attack rollouts, matched benign hard negatives, and annotations of the earliest harm-enabling turns. We show that MTID helps enable a turn-level monitor TurnGate, which substantially outperforms existing baselines in harmful-intent detection while maintaining low over-refusal rates. TurnGate further generalizes across domains, attacker pipelines, and target models. Our code is available at https://github.com/Graph-COM/TurnGate.