Aligning to Illusions: Choice Blindness in Human and AI Feedback

📄 arXiv: 2603.08412v1 📥 PDF

作者: Wenbin Wu

分类: cs.CL, cs.AI

发布日期: 2026-03-09

备注: 16 pages, 6 figures, 2 tables


💡 一句话要点

提出选择盲目性研究以挑战人类反馈在RLHF中的假设

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 选择盲目性 人类反馈 强化学习 偏好构建 大型语言模型

📋 核心要点

  1. 现有的RLHF方法假设人类反馈是稳定的,但实验表明这种假设存在严重缺陷,尤其是在选择盲目性方面。
  2. 论文通过实验揭示了人类和AI在反馈过程中对偏好的盲目性,提出了对偏好构建问题的深入分析。
  3. 实验结果显示,偏好交换的检测率极低,且在标签腐败情况下,奖励信号显著下降,影响了下游策略的表现。

📝 摘要(中文)

强化学习中的人类反馈(RLHF)假设注释者的偏好反映稳定的内部状态。本文通过三项实验挑战这一假设。在人类选择盲目性研究中,91%的偏好交换未被检测到,扩展了选择盲目性到对不熟悉文本的第三方评估比较。对15个大型语言模型(LLM)评估者的测试发现,检测依赖于浅层文本匹配而非真实的自我监控。移除上下文中的先前推理导致盲目性从接近零激增至超过50%,而显性社会压力则导致几乎普遍的顺从。通过对86M到2B参数的两种架构进行的剂量反应实验显示,标签的腐败程度达到六分之一到三分之一时,奖励信号减半,但标准的成对准确率几乎没有变化。这些结果揭示了偏好构建问题:进入RLHF的信号受到引导上下文的影响,且人类的元认知、LLM的自我监控和标准评估指标均无法检测到这一点。

🔬 方法详解

问题定义:本文旨在解决RLHF中人类反馈假设的可靠性问题,现有方法未能考虑选择盲目性对反馈的影响。

核心思路:通过实验验证人类和AI在偏好评估中的选择盲目性,提出偏好构建问题,强调引导上下文对反馈信号的影响。

技术框架:研究设计包括三个主要实验:人类选择盲目性实验、LLM评估者的偏好检测实验和剂量反应实验,分别评估不同条件下的反馈可靠性。

关键创新:最重要的创新在于将选择盲目性扩展到AI反馈评估中,揭示了人类和AI在偏好检测中的相似盲点,挑战了传统的RLHF假设。

关键设计:实验中采用了不同的文本匹配策略,分析了上下文信息的影响,并通过不同参数规模的模型进行对比,探索了标签腐败对奖励信号的影响。

📊 实验亮点

实验结果显示,在人类选择盲目性研究中,91%的偏好交换未被检测到;在标签腐败实验中,当腐败率达到50%时,奖励导向选择的表现与随机采样无显著差异,揭示了偏好构建的严重问题。

🎯 应用场景

该研究的潜在应用领域包括人机交互、推荐系统和自动化评估等。通过深入理解人类反馈的盲目性,可以提高AI系统在处理人类反馈时的可靠性和准确性,从而提升其在实际应用中的表现和用户体验。

📄 摘要(原文)

Reinforcement Learning from Human Feedback (RLHF) assumes annotator preferences reflect stable internal states. We challenge this through three experiments spanning the preference pipeline. In a human choice blindness study, 91% of surreptitiously swapped preferences go undetected, extending choice blindness to third-person evaluative comparison of unfamiliar text. Testing fifteen LLM judges as potential replacements, we find detection relies on shallow text matching rather than genuine self-monitoring: removing prior reasoning from context causes blindness to surge from near-zero to over 50%, while explicit social pressure induces near-universal compliance. In a dose-response experiment across two architectures from 86M to 2B parameters, one-sixth to one-third of labels must be corrupted before the reward signal halves, yet standard pairwise accuracy remains virtually unchanged. A Best-of-N evaluation confirms this translates to downstream policy degradation: at 50% corruption, reward-guided selection produces no improvement over random sampling, while the proxy model reports monotonically increasing scores. Together, these results reveal a preference construction problem: the signal entering RLHF is shaped by elicitation context in ways that neither human metacognition, LLM self-monitoring, nor standard evaluation metrics can detect.