Cross-Lingual Jailbreak Detection via Semantic Codebooks

📄 arXiv: 2604.25716v1 📥 PDF

作者: Shirin Alanova, Bogdan Minko, Sabrina Sadiekh, Evgeniy Kokuykin

分类: cs.CL, cs.AI

发布日期: 2026-04-28


💡 一句话要点

提出基于语义编码本的跨语言越狱检测方法,无需重训练或特定语言适配。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 跨语言安全 越狱检测 语义相似度 大型语言模型 安全护栏

📋 核心要点

  1. 现有LLM安全机制主要针对英语,导致跨语言场景下存在越狱攻击的风险。
  2. 该论文提出一种基于语义相似度的跨语言越狱检测方法,无需针对特定语言进行训练或适配。
  3. 实验表明,该方法在典型越狱模板上表现良好,但在分布偏移的数据集上性能下降。

📝 摘要(中文)

大型语言模型(LLM)的安全机制主要集中在英语上,导致多语言部署中存在系统性漏洞。先前的研究表明,将恶意提示翻译成其他语言可以显著提高越狱成功率,暴露了跨语言安全漏洞。本文研究了是否可以通过语言无关的语义相似性来缓解此类攻击,而无需重新训练或进行特定语言的适配。该方法将多语言查询嵌入与固定的英语越狱提示编码本进行比较,作为黑盒LLM的免训练外部安全护栏。在四种语言、两种翻译流程、四个安全基准、三个嵌入模型和三个目标LLM(Qwen、Llama、GPT-3.5)上进行了系统评估。结果揭示了跨语言迁移的两种不同状态。在包含典型越狱模板的精选基准上,语义相似性在不同语言之间可靠地泛化,在严格的低假阳性约束下,实现了接近完美的区分度(AUC高达0.99),并大幅降低了绝对攻击成功率。然而,在分布偏移下——在行为多样且异构的不安全基准上——区分度显著降低(AUC约为0.60-0.70),并且在安全关键的低FPR状态下,所有嵌入模型的召回率均下降。

🔬 方法详解

问题定义:论文旨在解决大型语言模型在跨语言场景下的越狱攻击问题。现有方法主要依赖于英语数据集进行训练,无法有效防御其他语言的恶意攻击,导致多语言环境下的安全漏洞。现有防御方法通常需要针对特定语言进行适配或重新训练,成本较高且效率较低。

核心思路:论文的核心思路是利用语言无关的语义相似性来检测越狱攻击。通过将多语言查询嵌入到统一的语义空间中,并与预定义的英语越狱提示编码本进行比较,判断查询是否具有恶意意图。这种方法无需针对特定语言进行训练,具有较好的泛化能力。

技术框架:该方法主要包含以下几个阶段:1) 将多语言查询通过翻译流程转换为目标语言(可选);2) 使用嵌入模型将查询和英语越狱提示编码本转换为语义向量;3) 计算查询嵌入与编码本中提示嵌入之间的相似度;4) 基于相似度得分判断查询是否为越狱攻击。整体架构简单,易于部署,可作为黑盒LLM的外部安全护栏。

关键创新:该方法最重要的创新点在于其语言无关性。通过利用语义相似度,该方法能够有效地检测不同语言的越狱攻击,而无需针对每种语言进行单独的训练或适配。此外,该方法采用固定的英语越狱提示编码本,避免了重新训练的成本,提高了效率。

关键设计:关键设计包括:1) 嵌入模型的选择:论文评估了多种嵌入模型,包括多语言和单语言模型,以确定最适合跨语言语义相似度计算的模型;2) 相似度度量:论文采用了余弦相似度来衡量查询嵌入与编码本提示嵌入之间的相似度;3) 阈值设定:需要设定一个合适的相似度阈值来区分恶意查询和正常查询,以平衡检测率和假阳性率。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在包含典型越狱模板的精选基准上,该方法能够实现接近完美的区分度(AUC高达0.99),并大幅降低绝对攻击成功率。然而,在分布偏移的数据集上,性能显著下降(AUC约为0.60-0.70),表明该方法对数据分布的敏感性。实验结果突出了跨语言安全领域中分布偏移问题的挑战。

🎯 应用场景

该研究成果可应用于多语言大型语言模型的安全防护,提高模型在不同语言环境下的鲁棒性。该方法可作为一种外部安全护栏,部署在现有的LLM之上,无需修改模型本身。此外,该研究也为跨语言安全领域的研究提供了新的思路,有助于开发更有效的跨语言攻击检测方法。

📄 摘要(原文)

Safety mechanisms for large language models (LLMs) remain predominantly English-centric, creating systematic vulnerabilities in multilingual deployment. Prior work shows that translating malicious prompts into other languages can substantially increase jailbreak success rates, exposing a structural cross-lingual security gap. We investigate whether such attacks can be mitigated through language-agnostic semantic similarity without retraining or language-specific adaptation. Our approach compares multilingual query embeddings against a fixed English codebook of jailbreak prompts, operating as a training-free external guardrail for black-box LLMs. We conduct a systematic evaluation across four languages, two translation pipelines, four safety benchmarks, three embedding models, and three target LLMs (Qwen, Llama, GPT-3.5). Our results reveal two distinct regimes of cross-lingual transfer. On curated benchmarks containing canonical jailbreak templates, semantic similarity generalizes reliably across languages, achieving near-perfect separability (AUC up to 0.99) and substantial reductions in absolute attack success rates under strict low-false-positive constraints. However, under distribution shift - on behaviorally diverse and heterogeneous unsafe benchmarks - separability degrades markedly (AUC $\approx$ 0.60-0.70), and recall in the security-critical low-FPR regime drops across all embedding models.