Decoding-Time Debiasing via Process Reward Models: From Controlled Fill-in to Open-Ended Generation
作者: Muneeb Ur Raheem Khan
分类: cs.CL, cs.LG
发布日期: 2026-05-04
备注: 28 pages, 19 figures, preprint
💡 一句话要点
提出基于过程奖励模型的解码时去偏方法,无需模型权重即可缓解大语言模型偏见。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 语言模型 去偏 解码时干预 过程奖励模型 公平性 开放式生成 社会偏见 自然语言处理
📋 核心要点
- 现有大语言模型存在社会偏见,传统去偏方法成本高、需访问模型权重,且可能影响模型在其他任务上的表现。
- 提出一种解码时去偏方法,通过过程奖励模型(PRM)评估候选token的公平性和流畅性,无需修改模型权重。
- 实验表明,顺序去偏方法最有效,在保持流畅性的同时,显著提高了模型的公平性得分,且开销可控。
📝 摘要(中文)
大型语言模型从训练数据中学习到社会偏见,并将其带到下游应用中,经常强化性别、种族、宗教、残疾、年龄和社会经济地位等方面的刻板印象。标准的解决方案(在精心策划的数据上重新训练或使用人类反馈进行微调)成本高昂,需要访问模型权重,并且存在降低模型在其他任务上的性能的风险。本文提出了一种不同的方法:在解码时对模型进行去偏,将偏见缓解视为候选token上的结构化搜索,而无需修改模型权重。一个独立的过程奖励模型(PRM)充当评判者,对每个候选者的公平性和流畅性进行评分。设计了三种复杂度递增的方案(Best-of-N选择、顺序批判和修改以及宪法式自我审计),并在四种模型(GPT-4o-mini、Llama 3.2 3B、Gemma 3 4B、Qwen 2.5 3B)上,针对涵盖八个偏见类别的200个提示的双语(英语和乌尔都语)基准进行了评估。顺序去偏被证明是最有效的,在保持(有时甚至提高)流畅性的同时,平均偏见得分比基线提高了高达+0.40。然后,将所有三种方案扩展到开放式生成,其中每个token都会即时去偏,并引入了一个轻量级的偏见防护门,该门仅在可能存在偏见的词语上触发,从而使校准良好的模型的开销接近2倍。一个将生成器成本与评判器成本分开的形式化开销指标表明,Best-of-N在原生实现中实际上对生成器是免费的。GPT-4o-mini作为一个强大的专有锚点,证实了该框架可以随着模型能力的提高而扩展;这三个开放权重模型显示了当前小规模LLM仍在努力的地方。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)中存在的社会偏见问题,这些偏见源于训练数据,并在生成文本中得以体现,强化了刻板印象。现有去偏方法,如重新训练或微调,成本高昂,需要访问模型权重,并且可能损害模型在其他任务上的性能。因此,如何在不修改模型权重的前提下,有效缓解LLM的偏见是一个关键问题。
核心思路:论文的核心思路是在解码阶段进行去偏,将偏见缓解视为一个结构化搜索问题。通过引入一个独立的过程奖励模型(PRM),对每个候选token的公平性和流畅性进行评估,从而选择更符合要求的token。这种方法无需修改原始模型,降低了成本和风险。
技术框架:整体框架包含以下几个主要模块:1) LLM生成候选token:使用预训练的LLM生成多个候选token。2) 过程奖励模型(PRM):PRM充当“评判者”,对每个候选token的公平性和流畅性进行评分。PRM可以是一个单独训练的模型,也可以是基于规则或知识库的评估器。3) 去偏方案:论文提出了三种去偏方案:Best-of-N选择、顺序批判和修改以及宪法式自我审计。4) 偏见防护门(Bias Guard):在开放式生成中,引入偏见防护门,仅在可能存在偏见的词语上触发PRM,降低计算开销。
关键创新:最重要的技术创新点是在解码时进行去偏,而不是在训练阶段。这种方法无需修改模型权重,降低了成本和风险,并且可以灵活地应用于不同的LLM。此外,引入PRM作为独立的评估器,可以更精确地衡量和控制生成文本的公平性。
关键设计:三种去偏方案的设计是关键。Best-of-N选择:从N个候选token中选择PRM评分最高的token。顺序批判和修改:迭代地使用PRM批判和修改生成的token,直到满足公平性要求。宪法式自我审计:LLM首先生成文本,然后根据预定义的“宪法”(公平性原则)自我审计,并进行修改。偏见防护门的设计旨在平衡公平性和效率,仅在必要时触发PRM。
🖼️ 关键图片
📊 实验亮点
实验结果表明,顺序去偏方法在四种模型(GPT-4o-mini、Llama 3.2 3B、Gemma 3 4B、Qwen 2.5 3B)上,针对涵盖八个偏见类别的200个提示的双语(英语和乌尔都语)基准进行了评估,平均偏见得分比基线提高了高达+0.40,同时保持了流畅性。此外,偏见防护门的设计使得开放式生成中的开销接近2倍,表明该方法具有较好的实用性。
🎯 应用场景
该研究成果可应用于各种需要生成无偏见文本的场景,如新闻报道、社交媒体内容生成、教育材料编写等。通过在解码时进行去偏,可以有效减少LLM在这些应用中产生的社会偏见,提高生成内容的公平性和客观性,从而避免强化刻板印象和歧视。
📄 摘要(原文)
Large language models pick up social biases from the data they are trained on and carry those biases into downstream applications, often reinforcing stereotypes around gender, race, religion, disability, age, and socioeconomic status. The standard fixes (retraining on curated data or fine-tuning with human feedback) are expensive, need access to model weights, and risk degrading the model on other tasks. In this paper we take a different route: we debias the model at decoding time, treating bias mitigation as a structured search over candidate tokens without ever touching model weights. A separate Process Reward Model (PRM) acts as a judge, scoring each candidate for both fairness and fluency. We design three schemes of increasing sophistication (Best-of-N selection, Sequential critique-and-revise, and Constitutional self-audit) and evaluate them on four models (GPT-4o-mini, Llama 3.2 3B, Gemma 3 4B, Qwen 2.5 3B) across a 200-prompt bilingual benchmark in English and Urdu covering eight bias categories. Sequential debiasing proves the most effective, raising mean bias scores by up to +0.40 over baseline while preserving (and sometimes improving) fluency. We then extend all three schemes to open-ended generation, where each token is debiased on the fly, and introduce a lightweight Bias Guard gate that fires only on potentially biased words, keeping overhead near 2x for well-calibrated models. A formal overhead metric that separates generator cost from judge cost reveals that Best-of-N is effectively free on the generator side in a native implementation. GPT-4o-mini, included as a strong proprietary anchor, confirms that the framework scales with model capability; the three open-weight models show where current small-scale LLMs still struggle.