SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal

📄 arXiv: 2406.14598v2 📥 PDF

作者: Tinghao Xie, Xiangyu Qi, Yi Zeng, Yangsibo Huang, Udari Madhushani Sehwag, Kaixuan Huang, Luxi He, Boyi Wei, Dacheng Li, Ying Sheng, Ruoxi Jia, Bo Li, Kai Li, Danqi Chen, Peter Henderson, Prateek Mittal

分类: cs.AI

发布日期: 2024-06-20 (更新: 2025-03-01)

备注: Paper accepted to ICLR 2025


💡 一句话要点

SORRY-Bench:系统性评估大型语言模型安全拒绝能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 安全性评估 安全拒绝 自动化评估 语言增强

📋 核心要点

  1. 现有LLM安全评估方法存在主题分类粗糙、语言特征考虑不足以及依赖高成本LLM评估等问题。
  2. SORRY-Bench通过细粒度主题分类、多样化语言增强以及高效的自动化评估器来解决上述问题。
  3. 实验表明,微调的7B LLM可以达到与GPT-4相当的安全评估准确性,显著降低计算成本。

📝 摘要(中文)

评估对齐的大型语言模型(LLM)识别和拒绝不安全用户请求的能力,对于安全且符合策略的部署至关重要。现有的评估工作存在三个局限性,SORRY-Bench旨在解决这些问题。首先,现有方法通常使用粗粒度的不安全主题分类,并且过度表示某些细粒度主题。例如,在我们评估的十个现有数据集中,对自我伤害指令的拒绝测试比欺诈活动的测试少3倍以上。SORRY-Bench通过使用包含44个潜在不安全主题的细粒度分类,以及通过人机协作方法编译的440个类别平衡的不安全指令来改进这一点。其次,提示的语言特征和格式经常被忽略,例如不同的语言、方言等,这些在许多评估中只是隐式考虑。我们用20种不同的语言增强来补充SORRY-Bench,以系统地检查这些影响。第三,现有评估依赖于大型LLM(例如GPT-4)进行评估,这在计算上可能很昂贵。我们研究了创建快速、准确的自动安全评估器的设计选择。通过收集7K+人工标注并对各种LLM-as-a-judge设计进行元评估,我们表明微调的7B LLM可以实现与GPT-4规模LLM相当的准确性,同时降低计算成本。总而言之,我们在SORRY-Bench上评估了50多个专有和开源LLM,分析了它们独特的安全拒绝行为。我们希望我们的努力为系统评估LLM的安全拒绝能力提供一个构建块,以平衡、细粒度和高效的方式进行。

🔬 方法详解

问题定义:现有的大型语言模型安全评估方法存在以下痛点:一是使用粗粒度的不安全主题分类,导致某些细粒度主题的代表性不足;二是忽略了提示的语言特征和格式对模型安全性的影响;三是依赖于计算成本高昂的大型LLM进行评估。这些问题限制了对LLM安全性的全面、细致和高效的评估。

核心思路:SORRY-Bench的核心思路是通过构建一个更全面、细粒度、多样化且高效的评估基准来解决现有方法的不足。具体来说,它采用细粒度的不安全主题分类,并使用多种语言增强来增加评估的多样性,同时探索使用更小规模的LLM作为评估器,以降低计算成本。

技术框架:SORRY-Bench的整体框架包括以下几个主要模块: 1. 不安全主题分类:构建包含44个潜在不安全主题的细粒度分类体系。 2. 不安全指令生成:通过人机协作方法,为每个主题生成类别平衡的不安全指令。 3. 语言增强:使用20种不同的语言增强方法来增加提示的多样性。 4. 自动化安全评估器:探索使用微调的7B LLM作为安全评估器,并进行元评估。 5. LLM评估:在SORRY-Bench上评估50多个LLM的安全拒绝行为。

关键创新:SORRY-Bench的关键创新在于: 1. 细粒度的不安全主题分类:相比于现有方法,SORRY-Bench提供了更细致的不安全主题划分,能够更全面地评估LLM的安全性。 2. 多样化的语言增强:通过引入多种语言增强,SORRY-Bench能够更真实地模拟用户输入,从而更准确地评估LLM的安全性。 3. 高效的自动化安全评估器:通过使用微调的7B LLM作为评估器,SORRY-Bench能够显著降低评估成本,同时保持较高的准确性。

关键设计:在自动化安全评估器的设计中,论文收集了7K+人工标注,用于训练和评估微调的7B LLM。论文还对不同的LLM-as-a-judge设计进行了元评估,以选择最佳的评估器配置。具体的技术细节包括:微调的损失函数、训练数据选择、以及评估指标的选择等。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SORRY-Bench评估了50多个LLM,揭示了它们在安全拒绝方面的差异。最重要的是,研究表明,通过微调,7B参数的LLM可以达到与GPT-4相当的安全评估准确性,显著降低了计算成本。例如,微调后的模型在安全评估任务上取得了接近GPT-4的性能,同时计算资源消耗大幅降低。

🎯 应用场景

SORRY-Bench可应用于评估和提升大型语言模型的安全性,确保其在各种应用场景中能够识别并拒绝不安全的用户请求。这对于防止LLM被用于恶意目的,以及确保其符合伦理和法律规范至关重要。该基准可以帮助开发者更好地理解LLM的安全漏洞,并开发更有效的安全防御机制,从而促进LLM在各个领域的安全可靠应用。

📄 摘要(原文)

Evaluating aligned large language models' (LLMs) ability to recognize and reject unsafe user requests is crucial for safe, policy-compliant deployments. Existing evaluation efforts, however, face three limitations that we address with SORRY-Bench, our proposed benchmark. First, existing methods often use coarse-grained taxonomies of unsafe topics, and are over-representing some fine-grained topics. For example, among the ten existing datasets that we evaluated, tests for refusals of self-harm instructions are over 3x less represented than tests for fraudulent activities. SORRY-Bench improves on this by using a fine-grained taxonomy of 44 potentially unsafe topics, and 440 class-balanced unsafe instructions, compiled through human-in-the-loop methods. Second, linguistic characteristics and formatting of prompts are often overlooked, like different languages, dialects, and more -- which are only implicitly considered in many evaluations. We supplement SORRY-Bench with 20 diverse linguistic augmentations to systematically examine these effects. Third, existing evaluations rely on large LLMs (e.g., GPT-4) for evaluation, which can be computationally expensive. We investigate design choices for creating a fast, accurate automated safety evaluator. By collecting 7K+ human annotations and conducting a meta-evaluation of diverse LLM-as-a-judge designs, we show that fine-tuned 7B LLMs can achieve accuracy comparable to GPT-4 scale LLMs, with lower computational cost. Putting these together, we evaluate over 50 proprietary and open-weight LLMs on SORRY-Bench, analyzing their distinctive safety refusal behaviors. We hope our effort provides a building block for systematic evaluations of LLMs' safety refusal capabilities, in a balanced, granular, and efficient manner. Benchmark demo, data, code, and models are available through https://sorry-bench.github.io.