Mitigating Cognitive Bias in RLHF by Altering Rationality

作者: Tiffany Horter, Andrew Markham, Niki Trigoni, Serena Booth

分类: cs.AI

发布日期: 2026-05-07

💡 一句话要点

提出基于动态理性参数调整的RLHF方法，以缓解人类反馈中的认知偏差问题

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 人类反馈强化学习 认知偏差 奖励建模 大语言模型对齐 鲁棒性学习 LLM作为裁判

📋 核心要点

现有RLHF方法将理性参数beta视为固定常数，忽略了人类标注过程中因认知偏差导致的系统性判断失误。
本文提出一种动态调整理性参数的方法，利用LLM作为裁判实时评估标注数据的偏差风险，并据此加权。
实验证明，该方法在处理具有强偏见偏好的数据集时，能显著提升奖励模型的理性程度与下游模型性能。

📝 摘要（中文）

如何提升模型对不完美人类反馈的鲁棒性？在人类反馈强化学习（RLHF）中，模型通过人类对输出的成对比较来训练奖励模型。传统方法通常采用Boltzmann分布建模，假设理性参数（beta）为固定常数，即假设所有标注者的可靠性一致。然而，人类判断往往受到认知偏差的影响，导致系统性偏离奖励一致性。为解决此问题，本文提出将理性视为上下文和标注依赖的变量。我们设计了一种方法，利用LLM作为裁判动态评估认知偏差的存在，并据此在奖励学习过程中调整beta参数。该方法能有效降低那些反映偏见或不可靠判断的比较权重。实验表明，即使在存在强烈偏见偏好的数据集上微调，该方法也能训练出更具理性的下游模型。

🔬 方法详解

问题定义：RLHF依赖于人类对模型输出的成对比较，传统方法使用Boltzmann分布建模偏好，其中理性参数beta衡量标注者的一致性。现有痛点在于，人类判断常受认知偏差（如从众效应、锚定效应等）影响，将beta设为固定常数会导致模型错误地学习到这些偏差，从而损害模型性能。

核心思路：论文的核心思想是将理性参数beta从静态常数转变为动态变量。通过引入LLM作为“元评估器”，识别特定比较中是否存在认知偏差，从而动态调整该样本在奖励模型训练中的权重，实现对不可靠反馈的自动过滤或降权。

技术框架：整体流程分为两阶段：首先，利用预训练的LLM作为裁判，对人类标注的成对比较进行分析，评估其受认知偏差影响的概率；其次，在奖励模型训练阶段，根据评估结果动态调整Boltzmann分布中的beta值，对高偏差风险的样本赋予较低的权重，从而优化奖励函数的拟合过程。

关键创新：最重要的创新在于将认知科学中的偏差理论引入RLHF流程，通过LLM的语义理解能力量化人类标注的“理性程度”，打破了传统RLHF中对人类反馈质量无差别信任的假设。

关键设计：该方法通过引入一个偏差检测模块，将标注上下文作为输入，输出一个偏差得分，进而映射为beta的缩放因子。损失函数在标准偏好损失的基础上，引入了基于beta的加权机制，使得奖励模型在训练时能够自动忽略那些偏离理性逻辑的噪声数据。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该方法在存在强认知偏差的合成数据集及真实标注数据集上均表现优异。相比于固定beta的基线模型，该方法训练出的奖励模型在预测准确率上提升了显著幅度，且在下游任务的评估中，模型输出的逻辑一致性与理性程度均有明显改善，有效抑制了模型对偏见数据的学习倾向。

🎯 应用场景

该研究适用于所有依赖人类反馈进行对齐的大语言模型（LLM）训练场景，特别是在标注者背景复杂、任务主观性强或存在潜在认知偏差的领域（如医疗咨询、法律建议、政治观点分析）。该方法能显著提升模型在复杂决策任务中的鲁棒性，减少模型对人类偏见数据的过度拟合，具有极高的工业应用价值。

📄 摘要（原文）

How can we make models robust to even imperfect human feedback? In reinforcement learning from human feedback (RLHF), human preferences over model outputs are used to train a reward model that assigns scalar values to responses. Because these rewards are inferred from pairwise comparisons, this learning depends on an assumed relationship between latent reward differences and observed preferences, typically modeled using a Boltzmann formulation in which a rationality parameter beta informs how consistently preferences reflect reward differences. In practice, beta is typically treated as a fixed constant that reflects assumed uniform annotator reliability. However, human feedback is not this simplistic in practice: real human judgments are shaped by cognitive biases, leading to systematic deviations from reward-consistent behavior that arise contextually. To address this, we treat rationality as context- and annotation-dependent. We design an approach to dynamically adjust the rationality parameter beta during reward learning using an LLM-as-judge to assess the likely presence of cognitive biases. This approach effectively downweights comparisons that are likely to reflect biased or unreliable judgments. Empirically, we show that this approach learns a more rational downstream model, even when finetuning on datasets with strongly biased preferences.

Mitigating Cognitive Bias in RLHF by Altering Rationality

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理