Multilingual jailbreaking of LLMs using low-resource languages

📄 arXiv: 2605.18239v1 📥 PDF

作者: Dylan Marx, Marcel Dunaiski

分类: cs.CL, cs.AI

发布日期: 2026-05-18

备注: 12 pages, 5 figures


💡 一句话要点

利用低资源语言进行多语言LLM越狱攻击研究

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 越狱攻击 低资源语言 多语言安全 人工红队测试

📋 核心要点

  1. 现有LLM的安全防护机制存在漏洞,容易被恶意提示绕过,尤其是在多语言环境下,其安全性面临挑战。
  2. 该研究探索利用低资源非洲语言进行多轮对话,试图绕过主流LLM的安全机制,揭示其潜在的安全隐患。
  3. 实验结果表明,多轮对话和人工红队测试能有效提高越狱成功率,并强调了翻译质量对越狱攻击效果的关键影响。

📝 摘要(中文)

大型语言模型(LLM)仍然容易受到绕过安全防护措施的越狱攻击。本文研究了使用低资源非洲语言(南非荷兰语、斯瓦希里语、科萨语和祖鲁语)进行的多轮对话是否可以绕过商业LLM的安全机制。我们翻译了现有数据集中的提示,并通过自动化测试和母语人士进行的人工红队测试评估了ChatGPT、Claude、DeepSeek、Gemini和Grok。单轮翻译攻击被证明无效,而多轮对话实现了英语有害响应率从52.7%(Claude 3.5 Haiku)到83.6%(GPT-4o-mini),南非荷兰语从60.0%(Claude 3.5 Haiku)到78.2%(GPT-4o-mini),斯瓦希里语从41.8%(Claude 3.5 Haiku)到70.9%(DeepSeek)。与自动化方法相比,人工红队测试提高了越狱率。在所有评估的语言中,平均越狱率从59.8%提高到75.8%,其中南非荷兰语提高了+20.0%,祖鲁语提高了+12.7%,科萨语提高了+12.3%,斯瓦希里语提高了+1%。这些结果表明,翻译质量是决定低资源语言越狱成功与否的关键因素,LLM的漏洞在多语言环境中仍然存在。

🔬 方法详解

问题定义:论文旨在研究大型语言模型(LLM)在多语言环境下的安全性,特别是针对低资源语言的越狱攻击。现有方法主要集中在英语环境下的安全防护,忽略了其他语言可能存在的漏洞。因此,如何评估和提升LLM在低资源语言环境下的安全性是一个重要的研究问题。现有方法在低资源语言上的翻译质量和文化差异适应性方面存在不足,导致安全防护效果不佳。

核心思路:论文的核心思路是利用低资源非洲语言(南非荷兰语、斯瓦希里语、科萨语和祖鲁语)进行多轮对话,尝试绕过主流LLM的安全机制。通过翻译现有数据集中的恶意提示,并结合人工红队测试,评估LLM在这些语言环境下的安全性能。研究假设低资源语言的翻译质量和文化差异可能导致LLM的安全防护机制失效。

技术框架:该研究的技术框架主要包括以下几个阶段:1) 恶意提示的翻译:将现有英文恶意提示翻译成四种低资源非洲语言。2) 自动化测试:使用翻译后的提示对多个LLM(ChatGPT、Claude、DeepSeek、Gemini和Grok)进行自动化测试,评估其有害响应率。3) 人工红队测试:邀请母语人士进行人工红队测试,进一步评估LLM的越狱成功率。4) 结果分析:对比不同语言和不同LLM的越狱率,分析翻译质量和对话轮数对越狱效果的影响。

关键创新:该研究的关键创新在于:1) 关注低资源语言环境下的LLM安全性,填补了现有研究的空白。2) 结合自动化测试和人工红队测试,更全面地评估LLM的越狱风险。3) 强调了翻译质量对越狱攻击成功率的关键影响,为提升多语言LLM安全性提供了新的思路。

关键设计:研究中关键的设计包括:1) 选择了四种具有代表性的低资源非洲语言,以覆盖不同的语言结构和文化背景。2) 使用了现有的恶意提示数据集,并进行了高质量的翻译,以保证测试的有效性。3) 设计了多轮对话场景,模拟真实的攻击环境,以提高越狱成功率。4) 通过对比不同LLM和不同语言的越狱率,分析了各种因素对安全性能的影响。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,多轮对话攻击在低资源语言环境下对LLM的越狱效果显著。例如,使用南非荷兰语进行多轮对话攻击时,GPT-4o-mini的有害响应率高达78.2%。人工红队测试进一步提高了越狱率,平均越狱率从59.8%提高到75.8%。研究还发现,翻译质量是影响越狱成功率的关键因素,南非荷兰语的越狱率提升最为显著(+20.0%),表明高质量的翻译能有效提高攻击效果。

🎯 应用场景

该研究成果可应用于提升多语言LLM的安全性,尤其是在低资源语言环境下。通过识别和修复LLM在这些语言中的漏洞,可以有效防止恶意攻击和有害信息的传播。此外,该研究还可以指导LLM的开发人员改进翻译质量和文化适应性,从而提高LLM在多语言环境下的可用性和安全性。该研究对于构建更安全、更可靠的多语言人工智能系统具有重要意义。

📄 摘要(原文)

Large Language Models (LLMs) remain vulnerable to jailbreak attempts that circumvent safety guardrails. We investigate whether multi-turn conversations using low-resource African languages (Afrikaans, Kiswahili, isiXhosa, and isiZulu) can bypass safety mechanisms across commercial LLMs. We translated prompts from existing datasets and evaluated ChatGPT, Claude, DeepSeek, Gemini, and Grok through automated testing and human red-teaming with native speakers. Single-turn translation attacks proved ineffective, while multi-turn conversations achieved English harmful response rates from 52.7% (Claude 3.5 Haiku) to 83.6% (GPT-4o-mini), Afrikaans from 60.0% (Claude 3.5 Haiku) to 78.2% (GPT-4o-mini), and Kiswahili from 41.8% (Claude 3.5 Haiku) to 70.9% (DeepSeek). Human red-teaming increased jailbreak rates compared to automated methods. Over all evaluated languages, the average jailbreak rate increased from 59.8% to 75.8%, with improvements of +20.0% (Afrikaans), +12.7% (isiZulu), +12.3% (isiXhosa), and +1% (Kiswahili), demonstrating that poor translation quality limits jailbreak success. These findings suggest that vulnerabilities in LLMs persist in multilingual contexts and that translation quality is the critical factor determining jailbreak success in low-resource languages.