Derailing Non-Answers via Logit Suppression at Output Subspace Boundaries in RLHF-Aligned Language Models

📄 arXiv: 2505.23848v1 📥 PDF

作者: Harvey Dam, Jonas Knochelmann, Vinu Joseph, Ganesh Gopalakrishnan

分类: cs.CL, cs.LG

发布日期: 2025-05-28


💡 一句话要点

提出一种基于logit抑制的策略,无需训练即可降低RLHF对齐语言模型在敏感内容上的拒绝率。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 拒绝率 RLHF logit抑制 敏感内容

📋 核心要点

  1. 大型语言模型在处理敏感内容时,经常出现拒绝回答的情况,影响用户体验。
  2. 该方法通过在特定token序列后抑制某些token的生成概率,从而绕过模型的拒绝行为。
  3. 实验表明,该方法在DeepSeek-R1模型上有效提高了对敏感提示的回答率,且不影响模型在通用任务上的性能。

📝 摘要(中文)

本文提出了一种在不修改模型权重或提示词的情况下,降低大型语言模型(LLMs)在敏感内容上拒绝率的方法。该方法基于观察到某些模型中的拒绝行为通常以特定的token序列开始,即链式思考(CoT)块的起始标记()后跟双换行符(\n\n)。因此,我们研究了在生成过程中进行两个简单格式调整的影响:抑制后的\n\n,以及抑制CoT块结束标记()后的序列结束标记。该方法不需要数据集、参数更改或训练,仅依赖于在生成过程中修改token概率。在官方DeepSeek-R1蒸馏模型的实验中,这些干预措施提高了对敏感提示的实质性回答比例,且不影响标准基准上的性能。研究结果表明,可以通过在生成过程中的特定点阻止拒绝子空间来规避拒绝行为。

🔬 方法详解

问题定义:大型语言模型在经过RLHF(Reinforcement Learning from Human Feedback)对齐后,在面对敏感或有害问题时,倾向于拒绝回答,以避免生成不安全或不适当的内容。然而,过度的拒绝会降低模型的可用性和用户体验。现有的方法通常需要重新训练模型或修改提示词,成本较高且可能影响模型在其他任务上的性能。

核心思路:该论文的核心思路是,模型的拒绝行为并非随机的,而是存在特定的“拒绝子空间”。通过观察发现,某些模型在拒绝回答前,通常会生成特定的token序列,例如“

”。因此,可以通过在这些关键节点上抑制某些token的生成概率,从而引导模型跳出拒绝子空间,生成有意义的回答。

技术框架:该方法无需修改模型参数或训练数据,仅在推理阶段进行干预。具体流程如下:1. 正常输入提示词给LLM。2. 在生成过程中,如果检测到特定的token序列(例如“”),则抑制其后特定token(例如“

”)的生成概率。3. 如果生成了CoT块的结束标记(“”),则抑制其后序列结束标记的生成概率。4. 继续生成剩余的文本。

关键创新:该方法最重要的创新点在于,它提供了一种无需训练或修改模型参数,即可有效降低LLM拒绝率的策略。与现有方法相比,该方法更加轻量级、易于部署,且不会影响模型在其他任务上的性能。此外,该方法揭示了LLM拒绝行为的内在机制,即存在特定的“拒绝子空间”,为后续研究提供了新的思路。

关键设计:该方法的关键设计在于选择合适的token序列和抑制策略。论文中选择了“

”和“”作为关键节点,并直接将后续token的生成概率设置为0,从而完全阻止了这些token的生成。这种简单的抑制策略在实验中取得了良好的效果。未来的研究可以探索更复杂的抑制策略,例如降低而非完全抑制token的生成概率,或者根据上下文动态调整抑制强度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在DeepSeek-R1蒸馏模型上,该方法显著提高了对敏感提示的实质性回答比例,且不影响模型在标准基准上的性能。具体而言,该方法在不降低模型在通用任务上的准确率的前提下,将拒绝率降低了XX%(具体数据未知)。这表明该方法是一种有效的、轻量级的降低LLM拒绝率的策略。

🎯 应用场景

该研究成果可应用于各种需要降低LLM拒绝率的场景,例如智能客服、内容创作、教育辅导等。通过该方法,可以提高LLM在处理敏感或复杂问题时的可用性和用户体验,使其能够更好地服务于人类社会。此外,该方法还可以作为一种安全措施,防止LLM生成有害或不适当的内容。

📄 摘要(原文)

We introduce a method to reduce refusal rates of large language models (LLMs) on sensitive content without modifying model weights or prompts. Motivated by the observation that refusals in certain models were often preceded by the specific token sequence of a token marking the beginning of the chain-of-thought (CoT) block () followed by a double newline token (\n\n), we investigate the impact of two simple formatting adjustments during generation: suppressing \n\n after and suppressing the end-of-sequence token after the end of the CoT block (). Our method requires no datasets, parameter changes, or training, relying solely on modifying token probabilities during generation. In our experiments with official DeepSeek-R1 distillations, these interventions increased the proportion of substantive answers to sensitive prompts without affecting performance on standard benchmarks. Our findings suggest that refusal behaviors can be circumvented by blocking refusal subspaces at specific points in the generation process.