LLMs know their vulnerabilities: Uncover Safety Gaps through Natural Distribution Shifts

作者: Qibing Ren, Hao Li, Dongrui Liu, Zhanxu Xie, Xiaoya Lu, Yu Qiao, Lei Sha, Junchi Yan, Lizhuang Ma, Jing Shao

分类: cs.CL, cs.AI

发布日期: 2024-10-14 (更新: 2025-05-25)

备注: ACL 2025 main conference. Code is available at https://github.com/AI45Lab/ActorAttack

🔗 代码/项目: GITHUB

💡 一句话要点

提出ActorBreaker方法，揭示LLM在自然分布偏移下的安全漏洞

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 安全漏洞 自然分布偏移 对抗攻击 角色网络 多轮对话 安全数据集

📋 核心要点

现有LLM安全机制易被语义相关的良性提示绕过，存在自然分布偏移下的安全漏洞。
提出ActorBreaker攻击方法，通过识别有害内容相关的角色，构造多轮提示诱导LLM暴露不安全内容。
实验表明ActorBreaker优于现有攻击方法，并构建多轮安全数据集，微调后模型鲁棒性显著提升。

📝 摘要（中文）

大型语言模型（LLM）的安全问题日益受到关注，因为它们在预训练期间会接触到潜在的有害数据。本文发现LLM的一个新的安全漏洞：它们容易受到攻击提示和原始有害提示之间的自然分布偏移的影响，即表面上良性的提示，在语义上与有害内容相关，可以绕过安全机制。为了探索这个问题，我们引入了一种新的攻击方法ActorBreaker，它识别预训练分布中与有害提示相关的角色，以构建多轮提示，逐步引导LLM揭示不安全的内容。ActorBreaker基于拉图尔的角色网络理论，涵盖人类和非人类角色，以捕捉更广泛的漏洞。实验结果表明，ActorBreaker在对齐的LLM上，在多样性、有效性和效率方面优于现有的攻击方法。为了解决这个漏洞，我们建议扩大安全训练，以覆盖更广泛的有害内容语义空间。因此，我们使用ActorBreaker构建了一个多轮安全数据集。在我们的数据集上微调模型显示出鲁棒性的显著提高，尽管在效用方面有一些权衡。代码可在https://github.com/AI45Lab/ActorAttack获得。

🔬 方法详解

问题定义：论文旨在解决大型语言模型（LLM）在面对自然分布偏移时存在的安全漏洞问题。现有方法主要关注直接的对抗性攻击，而忽略了LLM在预训练数据中学习到的语义关联，导致模型容易被看似无害但语义相关的提示所诱导，从而产生有害输出。现有方法的痛点在于无法有效识别和利用这种语义关联，导致安全防御机制失效。

核心思路：论文的核心思路是利用拉图尔的角色网络理论，将预训练数据中的实体（包括人、物等）视为“角色”，构建与有害内容相关的角色网络。通过识别这些角色，可以设计出多轮对话，逐步引导LLM暴露有害内容。这种方法的核心在于利用了LLM在预训练过程中学习到的知识，从而绕过现有的安全防御机制。

技术框架：ActorBreaker攻击方法主要包含以下几个阶段：1) 角色识别：识别与特定有害内容相关的角色；2) 提示构建：基于识别的角色，构建多轮提示，逐步引导LLM暴露有害内容；3) 攻击执行：将构建的提示输入LLM，观察其输出是否包含有害内容；4) 安全数据集构建：使用ActorBreaker生成多轮对话数据，用于微调LLM，提高其安全性。

关键创新：ActorBreaker的关键创新在于：1) 提出了自然分布偏移下的安全漏洞问题，揭示了现有安全机制的局限性；2) 引入了角色网络理论，将预训练数据中的实体视为“角色”，从而更好地理解LLM的知识表示；3) 设计了多轮提示攻击方法，能够逐步引导LLM暴露有害内容，提高了攻击的成功率。

关键设计：ActorBreaker的关键设计包括：1) 角色识别算法：用于识别与特定有害内容相关的角色，例如使用关键词搜索、知识图谱查询等方法；2) 提示构建策略：用于构建多轮提示，例如使用逐步引导、角色扮演等策略；3) 安全数据集构建方法：用于生成多轮对话数据，例如使用ActorBreaker自动生成、人工标注等方法。论文未明确给出具体参数设置、损失函数、网络结构等技术细节，这些可能依赖于具体的LLM和应用场景。

🖼️ 关键图片

📊 实验亮点

实验结果表明，ActorBreaker在多样性、有效性和效率方面优于现有的攻击方法。通过在ActorBreaker生成的数据集上进行微调，模型的鲁棒性得到了显著提高，尽管在效用方面存在一定的权衡。具体的性能数据和提升幅度在论文中进行了详细的展示。

🎯 应用场景

该研究成果可应用于提升大型语言模型的安全性，尤其是在对话系统、智能助手等需要与用户进行交互的场景中。通过ActorBreaker方法，可以更全面地评估LLM的安全风险，并构建更有效的安全防御机制，从而减少有害信息传播的风险，提升用户体验。

📄 摘要（原文）

Safety concerns in large language models (LLMs) have gained significant attention due to their exposure to potentially harmful data during pre-training. In this paper, we identify a new safety vulnerability in LLMs: their susceptibility to \textit{natural distribution shifts} between attack prompts and original toxic prompts, where seemingly benign prompts, semantically related to harmful content, can bypass safety mechanisms. To explore this issue, we introduce a novel attack method, \textit{ActorBreaker}, which identifies actors related to toxic prompts within pre-training distribution to craft multi-turn prompts that gradually lead LLMs to reveal unsafe content. ActorBreaker is grounded in Latour's actor-network theory, encompassing both human and non-human actors to capture a broader range of vulnerabilities. Our experimental results demonstrate that ActorBreaker outperforms existing attack methods in terms of diversity, effectiveness, and efficiency across aligned LLMs. To address this vulnerability, we propose expanding safety training to cover a broader semantic space of toxic content. We thus construct a multi-turn safety dataset using ActorBreaker. Fine-tuning models on our dataset shows significant improvements in robustness, though with some trade-offs in utility. Code is available at https://github.com/AI45Lab/ActorAttack.

LLMs know their vulnerabilities: Uncover Safety Gaps through Natural Distribution Shifts

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理