TwinGate: Stateful Defense against Decompositional Jailbreaks in Untraceable Traffic via Asymmetric Contrastive Learning

📄 arXiv: 2604.27861v1 📥 PDF

作者: Bowen Sun, Chaozhuo Li, Yaodong Yang, Yiwei Wang, Chaowei Xiao

分类: cs.CR, cs.CL, cs.LG

发布日期: 2026-04-30


💡 一句话要点

TwinGate:通过非对称对比学习防御不可追踪流量中的分解式越狱攻击

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 分解式越狱攻击 大型语言模型安全 非对称对比学习 恶意意图检测 有状态防御

📋 核心要点

  1. 现有防御方法难以追踪全局历史上下文,并且实时监控计算开销过高,无法有效防御分解式越狱攻击。
  2. TwinGate采用非对称对比学习,在潜在空间中聚类恶意片段,并使用冻结编码器抑制误报,实现高效防御。
  3. TwinGate在大规模数据集上实现了高恶意意图召回率和低误报率,且优于现有基线方法,延迟开销低。

📝 摘要(中文)

分解式越狱攻击通过将恶意目标分解为一系列看似无害的查询,最终重构违禁内容,对大型语言模型(LLMs)构成严重威胁。在实际部署中,LLMs面临着持续、不可追踪的匿名请求流,其中混杂着隐蔽分布的对抗性查询。现有防御策略在这种严格的威胁模型下存在根本局限性:缺乏可信的用户元数据导致无法追踪全局历史上下文,而使用生成模型进行实时监控又引入了过高的计算开销。为此,我们提出了TwinGate,一个有状态的双编码器防御框架。TwinGate采用非对称对比学习(ACL)在共享潜在空间中聚类语义不同但意图匹配的恶意片段,同时一个并行的冻结编码器抑制良性主题重叠引起的误报。每个请求仅需一次轻量级前向传递,使防御能够与目标模型的预填充阶段并行执行,延迟开销可忽略不计。为了评估我们的方法并推进未来研究,我们构建了一个包含超过362万条指令、涵盖8600个不同恶意意图的综合数据集。在该大规模语料库上,TwinGate在严格的因果协议下实现了高恶意意图召回率和极低的误报率,同时对自适应攻击保持高度鲁棒性。此外,我们的方案显著优于有状态和无状态基线,提供更高的吞吐量和更低的延迟。

🔬 方法详解

问题定义:论文旨在解决大型语言模型在面对分解式越狱攻击时,现有防御方法无法有效追踪恶意意图,且计算开销过高的问题。分解式越狱攻击将恶意指令拆分成多个看似无害的片段,绕过传统防御机制。现有方法要么依赖用户元数据进行追踪,要么使用生成模型进行实时监控,前者在匿名化场景下失效,后者计算成本过高。

核心思路:论文的核心思路是利用非对称对比学习,将语义不同但意图相同的恶意片段在潜在空间中聚集,从而实现对恶意意图的识别和防御。同时,为了降低误报率,引入一个冻结编码器,用于抑制良性主题重叠带来的干扰。这种方法能够在无需用户元数据的情况下,以较低的计算成本实现对分解式越狱攻击的有效防御。

技术框架:TwinGate框架包含两个主要模块:恶意意图编码器和良性内容编码器。恶意意图编码器负责将输入的查询片段编码到潜在空间中,并使用非对称对比学习方法,将意图相同的恶意片段聚集在一起。良性内容编码器是一个冻结的预训练模型,用于提取查询片段的良性主题信息,并抑制恶意意图编码器产生的误报。整个框架采用轻量级设计,每个请求只需要一次前向传递,可以与目标模型的预填充阶段并行执行。

关键创新:TwinGate的关键创新在于提出了非对称对比学习方法,用于在潜在空间中聚类恶意片段。传统的对比学习方法通常假设正样本和负样本是对称的,但在分解式越狱攻击场景下,恶意片段之间的语义差异可能很大,因此需要一种非对称的对比学习方法,能够更好地捕捉恶意意图的本质特征。此外,引入冻结编码器也是一个重要的创新,可以有效抑制良性主题重叠带来的误报。

关键设计:非对称对比学习损失函数的设计是关键。论文采用了一种InfoNCE损失函数的变体,其中正样本定义为具有相同恶意意图的片段,负样本定义为具有不同恶意意图的片段。为了平衡正负样本的数量,论文采用了一种自适应采样策略。此外,冻结编码器的选择也很重要,论文选择了一个在大量文本数据上预训练的模型,以确保其能够准确提取良性主题信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

TwinGate在包含362万条指令的大规模数据集上进行了评估,结果表明,在严格的因果协议下,TwinGate实现了高恶意意图召回率和极低的误报率。具体来说,TwinGate在恶意意图召回率达到90%时,误报率低于1%,显著优于有状态和无状态基线方法。此外,TwinGate的延迟开销极低,可以与目标模型的预填充阶段并行执行,不会对系统性能产生显著影响。

🎯 应用场景

TwinGate可应用于各种需要防御分解式越狱攻击的大型语言模型部署场景,例如在线聊天机器人、代码生成工具和内容创作平台。该研究有助于提高LLMs的安全性,防止恶意用户利用分解式攻击绕过安全策略,从而保障用户安全和系统稳定。未来,该方法可以扩展到防御其他类型的对抗性攻击,并与其他防御技术相结合,构建更强大的安全防护体系。

📄 摘要(原文)

Decompositional jailbreaks pose a critical threat to large language models (LLMs) by allowing adversaries to fragment a malicious objective into a sequence of individually benign queries that collectively reconstruct prohibited content. In real-world deployments, LLMs face a continuous, untraceable stream of fully anonymized and arbitrarily interleaved requests, infiltrated by covertly distributed adversarial queries. Under this rigorous threat model, state-of-the-art defensive strategies exhibit fundamental limitations. In the absence of trustworthy user metadata, they are incapable of tracking global historical contexts, while their deployment of generative models for real-time monitoring introduces computationally prohibitive overhead. To address this, we present TwinGate, a stateful dual-encoder defense framework. TwinGate employs Asymmetric Contrastive Learning (ACL) to cluster semantically disparate but intent-matched malicious fragments in a shared latent space, while a parallel frozen encoder suppresses false positives arising from benign topical overlap. Each request requires only a single lightweight forward pass, enabling the defense to execute in parallel with the target model's prefill phase at negligible latency overhead. To evaluate our approach and advance future research, we construct a comprehensive dataset of over 3.62 million instructions spanning 8,600 distinct malicious intents. Evaluated on this large-scale corpus under a strictly causal protocol, TwinGate achieves high malicious intent recall at a remarkably low false positive rate while remaining highly robust against adaptive attacks. Furthermore, our proposal substantially outperforms stateful and stateless baselines, delivering superior throughput and reduced latency.