FalseReject: A Resource for Improving Contextual Safety and Mitigating Over-Refusals in LLMs via Structured Reasoning

📄 arXiv: 2505.08054v2 📥 PDF

作者: Zhehao Zhang, Weijie Xu, Fanyou Wu, Chandan K. Reddy

分类: cs.CL, cs.AI

发布日期: 2025-05-12 (更新: 2025-07-15)

备注: Accepted at COLM 2025


💡 一句话要点

提出FalseReject数据集,通过结构化推理缓解LLM过度拒绝问题,提升上下文安全性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 安全对齐 过度拒绝 结构化推理 对抗学习

📋 核心要点

  1. 现有LLM安全对齐方法常导致过度拒绝良性查询,降低了模型在敏感场景下的可用性。
  2. 论文提出FalseReject数据集,包含结构化响应,利用图对抗多智能体交互框架生成多样化提示。
  3. 实验表明,使用FalseReject进行微调能有效减少LLM不必要的拒绝,且不影响安全性和通用能力。

📝 摘要(中文)

大型语言模型(LLM)的安全对齐方法常常导致对良性查询的过度拒绝,严重降低了它们在敏感场景中的效用。为了解决这个问题,我们引入了FalseReject,这是一个全面的资源,包含1.6万个看似有毒的查询,以及跨越44个安全相关类别的结构化响应。我们提出了一个基于图的对抗多智能体交互框架来生成多样化和复杂的提示,同时使用显式推理来构建响应,以帮助模型准确区分安全和不安全上下文。FalseReject包括为标准指令调优模型和面向推理的模型定制的训练数据集,以及人工标注的基准测试集。我们对29个最先进(SOTA)的LLM进行了广泛的基准测试,揭示了持续存在的过度拒绝挑战。实证结果表明,使用FalseReject进行监督微调可以显著减少不必要的拒绝,而不会损害整体安全或通用语言能力。

🔬 方法详解

问题定义:大型语言模型在安全对齐过程中,容易出现过度拒绝(Over-Refusal)现象,即对实际无害的查询也拒绝回答,这限制了LLM在许多实际场景中的应用。现有的安全对齐方法往往过于保守,缺乏对上下文的细致理解,导致误判。

核心思路:论文的核心思路是构建一个包含大量“看似有害但实际无害”的查询数据集(FalseReject),并为每个查询提供结构化的、带有明确推理过程的响应。通过在这个数据集上进行微调,可以使LLM学会更准确地判断查询的真实意图,从而减少过度拒绝。

技术框架:论文提出了一个基于图的对抗多智能体交互框架来生成多样化和复杂的提示。该框架包含多个智能体,它们相互协作和对抗,以生成既具有挑战性又符合特定安全类别的查询。同时,论文还设计了结构化的响应格式,包含明确的推理步骤,帮助模型理解查询的上下文和意图。FalseReject数据集包含训练集和测试集,训练集用于微调LLM,测试集用于评估模型在减少过度拒绝方面的性能。

关键创新:FalseReject数据集的构建方式和结构化响应的设计是关键创新点。传统的安全数据集往往只关注有害查询,而忽略了“看似有害但实际无害”的查询。FalseReject数据集填补了这一空白,并提供了结构化的推理过程,帮助模型更好地理解查询的上下文。此外,基于图的对抗多智能体交互框架能够生成更加多样化和复杂的提示,提高了模型的鲁棒性。

关键设计:FalseReject数据集包含1.6万个查询,涵盖44个安全相关类别。结构化响应包含多个字段,例如查询意图、潜在风险、推理过程和最终判断。对抗多智能体交互框架中的智能体使用不同的策略来生成查询,例如改变查询的措辞、添加上下文信息等。训练过程中,使用监督学习方法,以结构化响应作为目标,微调LLM的参数。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文在29个SOTA LLM上进行了广泛的基准测试,结果表明,使用FalseReject进行监督微调可以显著减少不必要的拒绝,同时保持整体安全性和通用语言能力。具体性能提升数据未知,但强调了在不牺牲安全性的前提下,有效缓解了过度拒绝问题。

🎯 应用场景

该研究成果可应用于各种需要安全保障的LLM应用场景,例如智能客服、内容审核、教育辅导等。通过减少LLM的过度拒绝,可以提高用户体验,扩展LLM的应用范围,并降低因误判而造成的潜在风险。未来,该方法可以进一步推广到其他类型的安全问题,例如隐私保护、信息安全等。

📄 摘要(原文)

Safety alignment approaches in large language models (LLMs) often lead to the over-refusal of benign queries, significantly diminishing their utility in sensitive scenarios. To address this challenge, we introduce FalseReject, a comprehensive resource containing 16k seemingly toxic queries accompanied by structured responses across 44 safety-related categories. We propose a graph-informed adversarial multi-agent interaction framework to generate diverse and complex prompts, while structuring responses with explicit reasoning to aid models in accurately distinguishing safe from unsafe contexts. FalseReject includes training datasets tailored for both standard instruction-tuned models and reasoning-oriented models, as well as a human-annotated benchmark test set. Our extensive benchmarking on 29 state-of-the-art (SOTA) LLMs reveals persistent over-refusal challenges. Empirical results demonstrate that supervised finetuning with FalseReject substantially reduces unnecessary refusals without compromising overall safety or general language capabilities.