Transient Turn Injection: Exposing Stateless Multi-Turn Vulnerabilities in Large Language Models
作者: Naheed Rayhan, Sohely Jahan
分类: cs.CR, cs.AI
发布日期: 2026-04-23
💡 一句话要点
提出瞬态轮次注入攻击,揭示大语言模型中无状态多轮对话漏洞
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 多轮对话 对抗攻击 安全漏洞 无状态审核 瞬态轮次注入 黑盒测试 LLM安全
📋 核心要点
- 现有大语言模型(LLM)的安全性不足,尤其是在多轮对话中,容易受到对抗攻击,威胁敏感工作流程。
- 提出瞬态轮次注入(TTI)攻击,通过分散对抗意图绕过无状态审核,无需维持持久对话上下文。
- 实验表明,不同LLM对TTI攻击的抵抗力差异显著,并揭示了模型特定漏洞,强调了上下文感知防御的重要性。
📝 摘要(中文)
本文提出了一种新的多轮攻击技术——瞬态轮次注入(TTI),该技术通过在隔离的交互中分散对抗意图,系统性地利用无状态审核机制。TTI利用由大型语言模型驱动的自动化攻击代理,迭代地测试和规避商业和开源LLM中的策略执行。这与通常依赖于维持持久对话上下文的传统越狱方法不同。对包括OpenAI、Anthropic、Google Gemini、Meta以及其他知名开源替代方案在内的最先进模型的广泛评估表明,它们对TTI攻击的抵抗力存在显著差异,只有少数架构表现出显著的固有鲁棒性。我们的自动化黑盒评估框架还揭示了以前未知的模型特定漏洞和攻击面模式,尤其是在医疗和高风险领域。我们进一步将TTI与已建立的对抗性提示方法进行比较,并详细说明了实际的缓解策略,例如会话级上下文聚合和深度对齐方法。我们的研究强调了对整体的、上下文感知的防御和持续的对抗性测试的迫切需求,以使LLM部署能够应对不断演变的多轮威胁。
🔬 方法详解
问题定义:现有的大语言模型在多轮对话中存在安全漏洞,传统的对抗攻击方法通常依赖于维持持久的对话上下文,这使得防御者更容易检测和阻止。然而,许多LLM的审核机制是无状态的,即它们独立地评估每个轮次的输入,而忽略了之前的对话历史。这种无状态性为攻击者提供了可乘之机,可以通过在多个轮次中分散对抗意图来绕过审核。
核心思路:TTI的核心思路是利用LLM的无状态审核机制,将对抗意图分散到多个独立的对话轮次中。攻击者通过精心设计的提示序列,在每个轮次中注入少量的信息,最终组合成完整的攻击指令。由于每个轮次的提示单独来看并不具有攻击性,因此可以绕过无状态审核。
技术框架:TTI攻击框架包含以下几个主要模块:1) 攻击目标选择:选择要攻击的LLM和目标任务。2) 对抗意图分解:将完整的攻击指令分解为多个独立的子指令。3) 提示生成:为每个子指令生成相应的提示,确保每个提示单独来看不具有攻击性。4) 轮次注入:将生成的提示逐轮注入到与LLM的对话中。5) 结果评估:评估LLM的输出是否符合攻击者的预期。
关键创新:TTI的关键创新在于它能够利用LLM的无状态审核机制,通过分散对抗意图来绕过安全防御。与传统的对抗攻击方法相比,TTI不需要维持持久的对话上下文,因此更加隐蔽和难以检测。此外,TTI还可以自动化地生成对抗提示,从而大大提高了攻击效率。
关键设计:TTI的关键设计包括:1) 提示分解策略:如何将完整的攻击指令分解为多个独立的子指令,以确保每个子指令单独来看不具有攻击性。2) 提示生成策略:如何生成能够引导LLM执行攻击任务的提示,同时避免触发安全防御。3) 轮次注入策略:如何控制轮次注入的频率和顺序,以最大化攻击成功率。
🖼️ 关键图片
📊 实验亮点
实验结果表明,TTI攻击能够成功绕过包括OpenAI、Anthropic、Google Gemini、Meta等公司的商业LLM以及一些开源LLM的安全防御。不同模型对TTI攻击的抵抗力存在显著差异,某些模型表现出较高的脆弱性。自动化黑盒评估框架揭示了以前未知的模型特定漏洞和攻击面模式,尤其是在医疗和高风险领域。与传统的对抗性提示方法相比,TTI攻击具有更高的成功率和更强的隐蔽性。
🎯 应用场景
该研究成果可应用于评估和提升大语言模型在多轮对话中的安全性。通过TTI攻击,可以发现模型潜在的漏洞,并为开发更有效的防御机制提供指导。此外,该研究还可以帮助开发者更好地理解LLM的内部工作机制,从而设计出更加安全可靠的AI系统。尤其是在医疗、金融等高风险领域,该研究具有重要的应用价值。
📄 摘要(原文)
Large language models (LLMs) are increasingly integrated into sensitive workflows, raising the stakes for adversarial robustness and safety. This paper introduces Transient Turn Injection(TTI), a new multi-turn attack technique that systematically exploits stateless moderation by distributing adversarial intent across isolated interactions. TTI leverages automated attacker agents powered by large language models to iteratively test and evade policy enforcement in both commercial and open-source LLMs, marking a departure from conventional jailbreak approaches that typically depend on maintaining persistent conversational context. Our extensive evaluation across state-of-the-art models-including those from OpenAI, Anthropic, Google Gemini, Meta, and prominent open-source alternatives-uncovers significant variations in resilience to TTI attacks, with only select architectures exhibiting substantial inherent robustness. Our automated blackbox evaluation framework also uncovers previously unknown model specific vulnerabilities and attack surface patterns, especially within medical and high stakes domains. We further compare TTI against established adversarial prompting methods and detail practical mitigation strategies, such as session level context aggregation and deep alignment approaches. Our study underscores the urgent need for holistic, context aware defenses and continuous adversarial testing to future proof LLM deployments against evolving multi-turn threats.