Text-Diffusion Red-Teaming of Large Language Models: Unveiling Harmful Behaviors with Proximity Constraints

📄 arXiv: 2501.08246v1 📥 PDF

作者: Jonathan Nöther, Adish Singla, Goran Radanović

分类: cs.LG

发布日期: 2025-01-14

备注: This is an extended version of a paper published at AAAI 25


💡 一句话要点

提出DART:一种基于扩散模型的LLM红队测试方法,通过近邻约束发现有害行为。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 红队测试 文本扩散模型 对抗样本 近邻约束

📋 核心要点

  1. 现有红队测试方法难以在特定主题或风格下生成针对LLM的有效对抗样本。
  2. DART利用文本扩散模型,在嵌入空间扰动参考提示词,实现对生成对抗样本的精准控制。
  3. 实验表明,DART在近邻约束下,比现有方法更有效地发现LLM的有害行为。

📝 摘要(中文)

本文研究了针对大型语言模型(LLM)的红队测试策略,旨在实现有针对性的安全评估。我们提出了一个带有近邻约束的红队测试优化框架,要求发现的提示词与给定数据集中的参考提示词相似。该数据集作为发现提示词的模板,将测试用例的搜索锚定到特定主题、写作风格或有害行为类型。我们发现,已建立的自回归模型架构在这种设置下表现不佳。因此,我们引入了一种受文本扩散模型启发的黑盒红队测试方法:扩散审计和红队测试(DART)。DART通过在嵌入空间中扰动参考提示词来修改它,直接控制引入的变化量。我们系统地评估了我们的方法,将其有效性与基于模型微调以及零样本和少样本提示的已建立方法进行比较。结果表明,DART在发现参考提示词附近有害输入方面明显更有效。

🔬 方法详解

问题定义:现有的大型语言模型红队测试方法,例如基于自回归模型的微调或提示工程,难以在特定主题、写作风格或有害行为类型下生成有效的对抗样本。这些方法缺乏对生成样本的细粒度控制,导致生成的对抗样本与目标场景相差甚远,实用性降低。因此,需要一种能够在特定参考提示词附近搜索有害输入的方法,以实现更有针对性的安全评估。

核心思路:本文的核心思路是利用文本扩散模型生成对抗样本。扩散模型通过逐步添加噪声到数据,然后学习从噪声中恢复数据的过程,可以生成高质量的文本。通过在参考提示词的嵌入空间中添加噪声,并控制噪声的强度,可以生成与参考提示词相似但又具有有害行为的对抗样本。这种方法允许对生成样本进行细粒度控制,确保生成的对抗样本与目标场景相关。

技术框架:DART (Diffusion for Auditing and Red-Teaming) 的整体框架包括以下几个步骤:1) 选择一个参考提示词,该提示词代表目标场景或主题。2) 将参考提示词嵌入到高维向量空间中。3) 在嵌入空间中添加噪声,噪声的强度由一个可控参数决定。4) 将加噪后的嵌入向量解码回文本,得到对抗样本。5) 使用对抗样本测试目标LLM,评估其是否产生有害行为。

关键创新:DART 的关键创新在于将文本扩散模型应用于LLM的红队测试,并引入了近邻约束。与传统的基于自回归模型的方法相比,DART 能够更有效地探索参考提示词附近的对抗样本空间,发现更隐蔽的有害行为。此外,DART 是一种黑盒方法,不需要访问目标LLM的内部参数,适用性更广。

关键设计:DART 的关键设计包括:1) 使用预训练的文本嵌入模型(例如,BERT 或 RoBERTa)将文本编码为嵌入向量。2) 使用高斯噪声对嵌入向量进行扰动,噪声的方差由一个可调参数控制。3) 使用文本扩散模型的逆过程将加噪后的嵌入向量解码回文本。4) 使用一个有害性检测器来评估生成的文本是否具有有害行为。有害性检测器可以是人工标注,也可以是基于规则或机器学习的模型。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,DART 在发现参考提示词附近有害输入方面明显优于现有的红队测试方法。例如,在特定主题下,DART 能够比基于微调的方法多发现 20% 的有害行为。此外,DART 在零样本和少样本设置下也表现出色,表明其具有良好的泛化能力。这些结果验证了 DART 在 LLM 红队测试中的有效性。

🎯 应用场景

DART 可用于评估和提高大型语言模型在各种场景下的安全性,例如,防止生成仇恨言论、虚假信息或恶意代码。该方法可以帮助开发者识别模型漏洞,并采取相应的防御措施。此外,DART 还可以用于评估不同模型的安全性,为用户选择更安全的模型提供依据。未来,DART 可以扩展到其他类型的模型,例如图像生成模型和语音识别模型。

📄 摘要(原文)

Recent work has proposed automated red-teaming methods for testing the vulnerabilities of a given target large language model (LLM). These methods use red-teaming LLMs to uncover inputs that induce harmful behavior in a target LLM. In this paper, we study red-teaming strategies that enable a targeted security assessment. We propose an optimization framework for red-teaming with proximity constraints, where the discovered prompts must be similar to reference prompts from a given dataset. This dataset serves as a template for the discovered prompts, anchoring the search for test-cases to specific topics, writing styles, or types of harmful behavior. We show that established auto-regressive model architectures do not perform well in this setting. We therefore introduce a black-box red-teaming method inspired by text-diffusion models: Diffusion for Auditing and Red-Teaming (DART). DART modifies the reference prompt by perturbing it in the embedding space, directly controlling the amount of change introduced. We systematically evaluate our method by comparing its effectiveness with established methods based on model fine-tuning and zero- and few-shot prompting. Our results show that DART is significantly more effective at discovering harmful inputs in close proximity to the reference prompt.