SG-Bench: Evaluating LLM Safety Generalization Across Diverse Tasks and Prompt Types

📄 arXiv: 2410.21965v1 📥 PDF

作者: Yutao Mou, Shikun Zhang, Wei Ye

分类: cs.CL

发布日期: 2024-10-29

备注: Accepted by NeurIPS2024 (Dataset and Benchmark Track)


💡 一句话要点

SG-Bench:提出一个综合性评测基准,评估LLM在不同任务和提示类型下的安全性泛化能力。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: LLM安全 安全基准 提示工程 越狱攻击 安全性泛化 生成式评估 判别式评估

📋 核心要点

  1. 现有LLM安全基准仅关注单一评估范式,忽略了生成式和判别式任务的关联,且缺乏对复杂提示技术的考量。
  2. SG-Bench通过集成生成式和判别式任务,并引入多种提示类型,全面评估LLM在不同场景下的安全性泛化能力。
  3. 实验结果表明,现有LLM在判别式任务和复杂提示下安全性表现不佳,提示安全对齐的泛化能力有待提高。

📝 摘要(中文)

为了确保大型语言模型(LLM)应用的安全,开发可信赖的人工智能至关重要。现有的LLM安全基准存在两个局限性。首先,它们仅关注判别式或生成式评估范式,忽略了它们之间的互连。其次,它们依赖于标准化的输入,忽略了广泛使用的提示技术(如系统提示、少样本演示和思维链提示)的影响。为了解决这些问题,我们开发了SG-Bench,这是一个新颖的基准,用于评估LLM安全性在各种任务和提示类型中的泛化能力。该基准集成了生成式和判别式评估任务,并包含扩展数据,以检查提示工程和越狱攻击对LLM安全性的影响。我们使用该基准评估了3个先进的专有LLM和10个开源LLM,结果表明,大多数LLM在判别式任务上的表现比生成式任务差,并且极易受到提示的影响,表明安全对齐方面的泛化能力较差。我们还对这些发现进行了定量和定性解释,为未来的研究提供见解。

🔬 方法详解

问题定义:现有的大型语言模型(LLM)安全评估基准存在局限性,主要体现在两个方面。一是评估范式单一,要么是生成式,要么是判别式,缺乏对两者之间关联的考察。二是输入形式过于标准化,忽略了实际应用中广泛存在的提示工程(Prompt Engineering)技术,如系统提示、少样本学习、思维链等。这些局限性导致现有基准无法全面评估LLM在真实场景下的安全性。

核心思路:SG-Bench的核心思路是构建一个更全面、更贴近实际应用的LLM安全评估基准。它通过集成生成式和判别式任务,并引入多种提示类型,来模拟真实世界中LLM可能遇到的各种情况。这样可以更准确地评估LLM在不同任务和提示下的安全性泛化能力,从而发现潜在的安全风险。

技术框架:SG-Bench的整体框架包含以下几个主要组成部分: 1. 任务集:包含多种生成式和判别式安全任务,例如有害内容生成、仇恨言论识别等。 2. 提示集:包含多种提示类型,例如系统提示、少样本演示、思维链提示等,以及对抗性提示(越狱攻击)。 3. 评估指标:用于衡量LLM在不同任务和提示下的安全性表现,例如有害内容生成率、攻击成功率等。 4. 评估流程:定义了如何使用SG-Bench对LLM进行安全评估,包括数据准备、模型推理、指标计算等步骤。

关键创新:SG-Bench的关键创新在于其综合性和实用性。它不仅集成了多种任务和提示类型,还考虑了对抗性提示(越狱攻击)的影响,从而更全面地评估LLM的安全性。此外,SG-Bench的设计也更加贴近实际应用,可以帮助研究人员和开发者更好地了解LLM的安全风险,并采取相应的措施。

关键设计:SG-Bench的关键设计包括: 1. 任务选择:选择具有代表性的生成式和判别式安全任务,覆盖不同的安全风险类型。 2. 提示设计:设计多种提示类型,模拟真实世界中LLM可能遇到的各种情况,包括正常提示和对抗性提示。 3. 指标选择:选择合适的评估指标,准确衡量LLM在不同任务和提示下的安全性表现。 4. 数据收集:收集高质量的数据,用于训练和评估LLM。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,大多数LLM在判别式任务上的表现不如生成式任务,且对提示非常敏感,表明其安全对齐的泛化能力较差。例如,某些LLM在特定提示下,有害内容生成率显著上升,表明其容易受到提示工程的攻击。

🎯 应用场景

SG-Bench可应用于LLM安全性的全面评估,指导LLM的安全对齐训练,并帮助开发者识别和修复LLM应用中的安全漏洞。该基准有助于提升LLM在实际应用中的安全性和可靠性,促进负责任的AI发展。

📄 摘要(原文)

Ensuring the safety of large language model (LLM) applications is essential for developing trustworthy artificial intelligence. Current LLM safety benchmarks have two limitations. First, they focus solely on either discriminative or generative evaluation paradigms while ignoring their interconnection. Second, they rely on standardized inputs, overlooking the effects of widespread prompting techniques, such as system prompts, few-shot demonstrations, and chain-of-thought prompting. To overcome these issues, we developed SG-Bench, a novel benchmark to assess the generalization of LLM safety across various tasks and prompt types. This benchmark integrates both generative and discriminative evaluation tasks and includes extended data to examine the impact of prompt engineering and jailbreak on LLM safety. Our assessment of 3 advanced proprietary LLMs and 10 open-source LLMs with the benchmark reveals that most LLMs perform worse on discriminative tasks than generative ones, and are highly susceptible to prompts, indicating poor generalization in safety alignment. We also explain these findings quantitatively and qualitatively to provide insights for future research.