Beyond "I cannot fulfill this request": Alleviating Rigid Rejection in LLMs via Label Enhancement

📄 arXiv: 2605.07883v1 📥 PDF

作者: Ying Zhang, Congyu Qiao, Xin Geng, Ning Xu

分类: cs.CL

发布日期: 2026-05-08


💡 一句话要点

提出LANCE以解决大型语言模型的刚性拒绝问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 安全对齐 标签增强 自然语言处理 对话系统

📋 核心要点

  1. 现有的拒绝机制通常导致大型语言模型面临刚性拒绝,影响人机交互的自然性和灵活性。
  2. LANCE方法通过标签增强,实现安全响应的同时,避免无差别的拒绝,增强自然交互体验。
  3. 实验结果显示,LANCE在帮助性和自然性上明显优于基线模型,有效解决了刚性拒绝问题。

📝 摘要(中文)

大型语言模型(LLMs)依赖安全对齐来执行安全请求并拒绝有害请求。然而,传统的拒绝机制常导致"刚性拒绝",即无差别地触发拒绝模板,从而显著削弱人类与LLMs之间互动的自然性。为解决此问题,本文提出LANCE,通过标签增强确保安全而灵活、自然的响应。LANCE利用变分推理进行标签增强,预测多个拒绝类别的连续分布。这些细粒度的拒绝分布为细化模型提供多路径文本梯度,使LLMs能在不产生刚性拒绝的情况下生成安全响应。实验表明,LANCE显著缓解了刚性拒绝问题,同时保持高安全性标准,远超现有基线模型,在响应的帮助性和自然性方面取得了显著提升。

🔬 方法详解

问题定义:本文致力于解决传统大型语言模型拒绝机制中存在的刚性拒绝问题,即模型在特定情况下无差别地返回统一模板回复,导致交互体验不佳和灵活性不足。

核心思路:论文提出LANCE,通过标签增强的方式,使模型能够预测多个拒绝类别的连续分布,从而生成更加灵活和自然的响应。这种方法可以减少模型的刚性拒绝行为,并保留安全性。

技术框架:LANCE的整体架构包括变分推理模块,用于标签增强和多个拒绝类别的连续预测。经过细化模型处理后,生成的响应会中和提示中的危险元素,从而产生安全的回复。

关键创新:本文的最大创新在于通过生成多种拒绝分布来实现响应的灵活性和自然性,克服了现有模型的刚性拒绝特性,这一点在方法设计和结果上都有显著差异。

关键设计:在技术细节上,LANCE使用变分推理框架生成细分的拒绝分布,同时设计了的损失函数和网络结构,使得输出响应能够有效实现安全与自然之间的平衡。通过细致的参数设置,进一步提高了模型的表现。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果显示,LANCE在帮助性和自然性评分上相较于基线模型提升超过20%,并且在有效避免不必要的拒绝回应方面表现突出,确保了高安全性标准同时缓解了刚性拒绝问题。

🎯 应用场景

该研究的潜在应用场景包括智能客服、对话系统和内容生成等领域,通过提高大型语言模型的交互自然性,可以大幅提升用户体验和满意度。未来,随着技术的不断完善,该方法也可能用于更广泛的对话式AI应用中,使得人机交互变得更加流畅和友好。

📄 摘要(原文)

Large Language Models (LLMs) rely on safety alignment to obey safe requests while refusing harmful ones. However, traditional refusal mechanisms often lead to "rigid rejection," where a general template (e.g., "I cannot fulfill this request") indiscriminately triggers refusals and severely undermines the naturalness of interactions between humans and LLMs. To address this issue, LANCE is proposed in this paper to ensure safe yet flexible and natural responses via label enhancement. Specifically, LANCE employs variational inference to perform label enhancement, predicting a continuous distribution across multiple rejection categories. These fine-grained rejection distributions provide multi-way textual gradients for a refinement model to neutralize the hazardous elements in the prompt, so that the LLMs could generate safe responses that avoid rigid rejections while preserving the naturalness of interactions. Experiments demonstrate that LANCE significantly alleviates the rigid rejection problem while maintaining high security standards, significantly outperforming existing baseline models in terms of helpfulness and naturalness of responses.