Compromesso! Italian Many-Shot Jailbreaks Undermine the Safety of Large Language Models

📄 arXiv: 2408.04522v1 📥 PDF

作者: Fabio Pernisi, Dirk Hovy, Paul Röttger

分类: cs.CL

发布日期: 2024-08-08

备注: Accepted at ACL 2024 (Student Research Workshop)


💡 一句话要点

意大利语多样本越狱攻击揭示大型语言模型安全漏洞

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 安全性 越狱攻击 意大利语 多样本学习

📋 核心要点

  1. 现有LLM安全性研究主要集中在英语,忽略了其他语言的安全风险,导致对多语言LLM安全性的理解不足。
  2. 该研究通过构建意大利语不安全问答数据集,并采用多样本越狱方法,评估开源LLM在意大利语环境下的安全性。
  3. 实验结果表明,即使少量不安全示例也能诱导模型产生不安全行为,且随着示例数量增加,风险迅速提升。

📝 摘要(中文)

随着不同语言社区和用户采用大型语言模型(LLMs),评估其跨语言的安全性变得至关重要。尽管在LLM安全性方面做出了持续努力,但通过越狱技术,仍然可以诱导模型做出不安全的行为,即提示模型以超出其操作指南的方式行事。然而,关于LLM安全性和越狱的研究主要集中在英语上,限制了我们对其他语言中LLM安全性的理解。我们通过研究意大利语中多样本越狱的有效性,为缩小这一差距做出了贡献。为了支持我们的分析,我们创建了一个新的意大利语不安全问答对数据集。通过这个数据集,我们识别出四个开源LLM家族中明显的安全漏洞。我们发现,即使使用少量的非安全演示提示,模型也会表现出不安全的行为,更令人担忧的是,这种趋势会随着演示数量的增加而迅速升级。

🔬 方法详解

问题定义:该论文旨在解决大型语言模型在意大利语环境下的安全性问题。现有研究主要集中在英语,缺乏对其他语言LLM安全性的深入评估。因此,当LLM应用于意大利语等其他语言时,其安全性可能存在未知的漏洞,容易受到恶意攻击,导致不安全或有害内容的生成。

核心思路:论文的核心思路是利用“多样本越狱”技术,通过提供一系列不安全的意大利语问答示例,诱导LLM产生不安全的行为。这种方法模拟了攻击者通过精心设计的提示,绕过LLM的安全机制,使其生成有害内容。通过观察模型在不同数量的不安全示例下的表现,可以评估其安全漏洞的严重程度。

技术框架:该研究的技术框架主要包括以下几个阶段:1)构建意大利语不安全问答数据集:收集并整理一系列包含不安全内容的意大利语问答对,作为越狱攻击的示例。2)实施多样本越狱攻击:使用不同数量的不安全示例作为提示,输入到目标LLM中,观察模型的输出。3)评估模型安全性:分析模型的输出,判断其是否生成了不安全或有害的内容,从而评估模型的安全性。4)对比不同模型的安全性:比较不同LLM在相同攻击下的表现,评估其安全性的差异。

关键创新:该研究的关键创新在于:1)构建了意大利语不安全问答数据集,填补了非英语LLM安全性研究的数据空白。2)系统地研究了多样本越狱攻击在意大利语环境下的有效性,揭示了开源LLM在意大利语环境下的安全漏洞。3)量化了不安全示例数量与模型不安全行为之间的关系,为评估LLM安全性提供了新的视角。

关键设计:该研究的关键设计包括:1)数据集的构建:数据集需要包含各种类型的不安全内容,例如仇恨言论、暴力威胁、非法活动等,以全面评估模型的安全性。2)提示的设计:提示需要包含不同数量的不安全示例,以观察模型在不同攻击强度下的表现。3)评估指标的选择:需要选择合适的评估指标,例如不安全内容的生成比例、攻击成功率等,以量化模型的安全性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,即使使用少量的意大利语不安全示例,开源LLM也会表现出不安全的行为。更重要的是,随着不安全示例数量的增加,模型生成不安全内容的概率迅速上升,表明这些模型在意大利语环境下存在严重的安全漏洞。该研究还对比了不同开源LLM的安全性,发现它们在抵抗多样本越狱攻击方面的表现存在差异。

🎯 应用场景

该研究成果可应用于提升多语言LLM的安全性,例如,通过分析越狱攻击的模式,可以改进LLM的安全机制,使其更难被恶意攻击。此外,该研究还可以帮助开发者评估LLM在不同语言环境下的安全性,从而更好地保护用户免受有害内容的侵害。未来,该研究可以扩展到更多语言,构建更全面的多语言LLM安全评估体系。

📄 摘要(原文)

As diverse linguistic communities and users adopt large language models (LLMs), assessing their safety across languages becomes critical. Despite ongoing efforts to make LLMs safe, they can still be made to behave unsafely with jailbreaking, a technique in which models are prompted to act outside their operational guidelines. Research on LLM safety and jailbreaking, however, has so far mostly focused on English, limiting our understanding of LLM safety in other languages. We contribute towards closing this gap by investigating the effectiveness of many-shot jailbreaking, where models are prompted with unsafe demonstrations to induce unsafe behaviour, in Italian. To enable our analysis, we create a new dataset of unsafe Italian question-answer pairs. With this dataset, we identify clear safety vulnerabilities in four families of open-weight LLMs. We find that the models exhibit unsafe behaviors even when prompted with few unsafe demonstrations, and -- more alarmingly -- that this tendency rapidly escalates with more demonstrations.