Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training

📄 arXiv: 2407.09121v2 📥 PDF

作者: Youliang Yuan, Wenxiang Jiao, Wenxuan Wang, Jen-tse Huang, Jiahao Xu, Tian Liang, Pinjia He, Zhaopeng Tu

分类: cs.CL, cs.AI

发布日期: 2024-07-12 (更新: 2025-05-23)

备注: Accepted by ACL 2025 main


💡 一句话要点

提出解耦拒绝训练(DeRTa)以提升LLM在不安全内容生成时的拒绝能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型安全 拒绝训练 解耦训练 最大似然估计 强化学习 有害内容检测 安全调优

📋 核心要点

  1. 现有安全调优数据存在拒绝位置偏差,导致LLM难以在响应的任何位置拒绝生成不安全内容。
  2. DeRTa通过最大似然估计和强化转移优化,使LLM能够在响应的任何位置安全地拒绝有害提示。
  3. 实验表明,DeRTa在提高模型安全性的同时,不影响性能,并且在防御攻击方面优于基线方法。

📝 摘要(中文)

本研究旨在解决大型语言模型(LLMs)安全调优实践中的一个关键问题:安全调优数据中存在的拒绝位置偏差,这会损害模型适当拒绝生成不安全内容的能力。我们提出了一种新颖的方法,即解耦拒绝训练(DeRTa),旨在使LLMs能够在任何响应位置拒绝遵守有害提示,从而显著增强其安全能力。DeRTa包含两个新颖的组成部分:(1)带有有害响应前缀的最大似然估计(MLE),通过将有害响应片段附加到安全响应的开头,训练模型识别并避免不安全内容;(2)强化转移优化(RTO),使模型能够在整个有害响应序列中,始终如一地从潜在危害过渡到安全拒绝。我们使用LLaMA3和Mistral模型系列,在六种攻击场景下进行的实证评估表明,我们的方法不仅提高了模型安全性,且不影响性能,而且在防御攻击方面优于基线方法。

🔬 方法详解

问题定义:现有的大语言模型在安全调优过程中,由于训练数据中拒绝回复的位置存在偏差,导致模型在生成回复时,如果已经开始生成有害内容,就很难在后续的token中切换到拒绝模式。换句话说,模型倾向于在回复的开头就决定是否拒绝,而缺乏在回复过程中动态拒绝的能力。

核心思路:DeRTa的核心思路是将拒绝行为与回复位置解耦,使模型能够在回复的任何阶段都能够安全地拒绝有害提示。通过训练模型识别有害内容并学习从有害内容过渡到安全拒绝,从而增强模型的安全性和鲁棒性。

技术框架:DeRTa包含两个主要模块:最大似然估计(MLE)与有害响应前缀和强化转移优化(RTO)。MLE模块通过在安全回复前添加有害回复片段来训练模型识别和避免不安全内容。RTO模块则通过强化学习的方式,优化模型从潜在有害内容到安全拒绝的转移过程,确保模型在整个回复序列中都能保持安全。

关键创新:DeRTa的关键创新在于其解耦拒绝训练的思想,它打破了传统安全调优中拒绝行为与回复位置的强关联。通过MLE和RTO的结合,DeRTa能够更有效地训练模型在任何回复位置拒绝有害内容,从而显著提升模型的安全性。

关键设计:在MLE模块中,有害响应前缀的长度和选择策略是关键。在RTO模块中,奖励函数的设计至关重要,需要能够准确地评估模型从有害内容到安全拒绝的转移效果。此外,强化学习算法的选择和参数调整也会影响RTO的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,DeRTa方法在LLaMA3和Mistral模型系列上,针对六种不同的攻击场景,均取得了显著的安全性提升,且未对模型性能造成明显影响。DeRTa在防御攻击方面的表现优于基线方法,证明了其在提高LLM安全性和鲁棒性方面的有效性。

🎯 应用场景

DeRTa方法可以广泛应用于各种需要安全保障的大语言模型应用场景,例如智能客服、内容生成、代码生成等。通过提高模型拒绝生成有害内容的能力,DeRTa可以有效降低模型被恶意利用的风险,提升用户体验,并促进大语言模型在更广泛领域的应用。

📄 摘要(原文)

This study addresses a critical gap in safety tuning practices for Large Language Models (LLMs) by identifying and tackling a refusal position bias within safety tuning data, which compromises the models' ability to appropriately refuse generating unsafe content. We introduce a novel approach, Decoupled Refusal Training (DeRTa), designed to empower LLMs to refuse compliance to harmful prompts at any response position, significantly enhancing their safety capabilities. DeRTa incorporates two novel components: (1) Maximum Likelihood Estimation (MLE) with Harmful Response Prefix, which trains models to recognize and avoid unsafe content by appending a segment of harmful response to the beginning of a safe response, and (2) Reinforced Transition Optimization (RTO), which equips models with the ability to transition from potential harm to safety refusal consistently throughout the harmful response sequence. Our empirical evaluation, conducted using LLaMA3 and Mistral model families across six attack scenarios, demonstrates that our method not only improves model safety without compromising performance but also surpasses baseline methods in defending against attacks.