Automatic Pseudo-Harmful Prompt Generation for Evaluating False Refusals in Large Language Models
作者: Bang An, Sicheng Zhu, Ruiyi Zhang, Michael-Andrei Panaitescu-Liess, Yuancheng Xu, Furong Huang
分类: cs.CL, cs.CR, cs.CY, cs.LG
发布日期: 2024-09-01 (更新: 2025-06-11)
🔗 代码/项目: GITHUB
💡 一句话要点
提出自动伪有害提示生成方法,用于评估大语言模型中的虚假拒绝问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 虚假拒绝 安全评估 提示生成 内容控制
📋 核心要点
- 现有大语言模型在面对伪有害提示时,容易出现不必要的拒绝,影响用户体验和模型可用性。
- 提出一种自动生成伪有害提示的方法,该方法能够生成多样化、内容可控且模型依赖的提示。
- 构建了大规模评估数据集PHTest,并在20个大语言模型上进行了评估,揭示了安全性和可用性之间的权衡。
📝 摘要(中文)
安全对齐的大语言模型(LLMs)有时会错误地拒绝伪有害提示,例如“如何杀死蚊子”,这些提示实际上是无害的。频繁的虚假拒绝不仅让用户感到沮丧,还会引发公众对对齐本身所要保护的价值观的强烈反对。本文提出了第一个自动生成多样化、内容可控和模型依赖的伪有害提示的方法。使用该方法,我们构建了一个名为PHTest的评估数据集,它比现有数据集大十倍,涵盖了更多的虚假拒绝模式,并单独标记了有争议的提示。我们在PHTest上评估了20个LLM,由于其规模和标签,揭示了新的见解。我们的研究结果揭示了最小化虚假拒绝和提高针对越狱攻击的安全性之间的权衡。此外,我们表明,许多越狱防御措施显著提高了虚假拒绝率,从而损害了可用性。我们的方法和数据集可以帮助开发人员评估和微调更安全和更可用的大语言模型。我们的代码和数据集可在https://github.com/umd-huang-lab/FalseRefusal获得。
🔬 方法详解
问题定义:论文旨在解决大语言模型中存在的虚假拒绝问题,即模型错误地拒绝了实际上无害的提示。现有方法缺乏有效生成此类提示的手段,导致评估和改进模型在这方面的能力受限。现有数据集规模小,覆盖的模式有限,难以全面评估模型的虚假拒绝行为。
核心思路:核心思路是利用大语言模型自身生成伪有害提示,并控制生成的内容,使其在语义上接近有害提示,但实际上是无害的。通过这种方式,可以高效地生成大量多样化的伪有害提示,用于评估和改进模型的虚假拒绝行为。模型依赖性体现在提示生成过程中会考虑目标模型的特点,从而生成更具挑战性的提示。
技术框架:整体框架包含以下几个主要阶段:1) 种子提示生成:使用少量人工设计的种子提示作为起点。2) 提示扩展:利用大语言模型根据种子提示生成更多样化的提示。3) 内容控制:通过特定的约束条件和过滤机制,确保生成的提示在内容上是伪有害的,而不是真正的有害。4) 提示标注:对生成的提示进行标注,区分无害、有害和有争议的提示。5) 模型评估:使用生成的提示评估目标大语言模型的虚假拒绝率。
关键创新:关键创新在于提出了一种自动化的、内容可控的伪有害提示生成方法。与以往依赖人工设计的提示或简单的数据增强方法不同,该方法能够高效地生成大量多样化的提示,并根据目标模型的特点进行调整。此外,该方法还引入了对有争议提示的单独标注,从而更全面地评估模型的行为。
关键设计:在提示扩展阶段,使用了多种策略来增加提示的多样性,例如使用不同的提示词、改变提示的结构等。在内容控制阶段,使用了基于规则的过滤和基于模型的分类器来识别和过滤掉真正的有害提示。在模型评估阶段,使用了多种指标来衡量模型的虚假拒绝率,例如准确率、召回率和F1值。
🖼️ 关键图片
📊 实验亮点
实验结果表明,使用PHTest数据集评估的20个大语言模型在虚假拒绝率上存在显著差异。研究发现,最小化虚假拒绝和提高针对越狱攻击的安全性之间存在权衡。此外,许多越狱防御措施显著提高了虚假拒绝率,从而损害了可用性。PHTest数据集比现有数据集大十倍,覆盖了更多的虚假拒绝模式,为全面评估模型的虚假拒绝行为提供了有力支持。
🎯 应用场景
该研究成果可应用于大语言模型的安全评估和改进,帮助开发者识别和解决模型中存在的虚假拒绝问题,提高模型的可用性和用户体验。此外,该方法还可以用于评估不同安全策略对模型可用性的影响,从而指导安全策略的设计和优化。该研究对于构建更安全、更可靠的大语言模型具有重要意义。
📄 摘要(原文)
Safety-aligned large language models (LLMs) sometimes falsely refuse pseudo-harmful prompts, like "how to kill a mosquito," which are actually harmless. Frequent false refusals not only frustrate users but also provoke a public backlash against the very values alignment seeks to protect. In this paper, we propose the first method to auto-generate diverse, content-controlled, and model-dependent pseudo-harmful prompts. Using this method, we construct an evaluation dataset called PHTest, which is ten times larger than existing datasets, covers more false refusal patterns, and separately labels controversial prompts. We evaluate 20 LLMs on PHTest, uncovering new insights due to its scale and labeling. Our findings reveal a trade-off between minimizing false refusals and improving safety against jailbreak attacks. Moreover, we show that many jailbreak defenses significantly increase the false refusal rates, thereby undermining usability. Our method and dataset can help developers evaluate and fine-tune safer and more usable LLMs. Our code and dataset are available at https://github.com/umd-huang-lab/FalseRefusal