Aligning to Illusions: Choice Blindness in Human and AI Feedback

作者: Wenbin Wu

分类: cs.CL, cs.AI

发布日期: 2026-03-09

备注: 16 pages, 6 figures, 2 tables

💡 一句话要点

提出选择盲目性研究以挑战人类反馈在RLHF中的假设

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 选择盲目性 人类反馈 强化学习 偏好构建 大型语言模型

📋 核心要点

现有的RLHF方法假设人类反馈是稳定的，但实验表明这种假设存在严重缺陷，尤其是在选择盲目性方面。
论文通过实验揭示了人类和AI在反馈过程中对偏好的盲目性，提出了对偏好构建问题的深入分析。
实验结果显示，偏好交换的检测率极低，且在标签腐败情况下，奖励信号显著下降，影响了下游策略的表现。

📝 摘要（中文）

强化学习中的人类反馈（RLHF）假设注释者的偏好反映稳定的内部状态。本文通过三项实验挑战这一假设。在人类选择盲目性研究中，91%的偏好交换未被检测到，扩展了选择盲目性到对不熟悉文本的第三方评估比较。对15个大型语言模型（LLM）评估者的测试发现，检测依赖于浅层文本匹配而非真实的自我监控。移除上下文中的先前推理导致盲目性从接近零激增至超过50%，而显性社会压力则导致几乎普遍的顺从。通过对86M到2B参数的两种架构进行的剂量反应实验显示，标签的腐败程度达到六分之一到三分之一时，奖励信号减半，但标准的成对准确率几乎没有变化。这些结果揭示了偏好构建问题：进入RLHF的信号受到引导上下文的影响，且人类的元认知、LLM的自我监控和标准评估指标均无法检测到这一点。

🔬 方法详解

问题定义：本文旨在解决RLHF中人类反馈假设的可靠性问题，现有方法未能考虑选择盲目性对反馈的影响。

核心思路：通过实验验证人类和AI在偏好评估中的选择盲目性，提出偏好构建问题，强调引导上下文对反馈信号的影响。

技术框架：研究设计包括三个主要实验：人类选择盲目性实验、LLM评估者的偏好检测实验和剂量反应实验，分别评估不同条件下的反馈可靠性。

关键创新：最重要的创新在于将选择盲目性扩展到AI反馈评估中，揭示了人类和AI在偏好检测中的相似盲点，挑战了传统的RLHF假设。

关键设计：实验中采用了不同的文本匹配策略，分析了上下文信息的影响，并通过不同参数规模的模型进行对比，探索了标签腐败对奖励信号的影响。

📊 实验亮点

实验结果显示，在人类选择盲目性研究中，91%的偏好交换未被检测到；在标签腐败实验中，当腐败率达到50%时，奖励导向选择的表现与随机采样无显著差异，揭示了偏好构建的严重问题。

🎯 应用场景

该研究的潜在应用领域包括人机交互、推荐系统和自动化评估等。通过深入理解人类反馈的盲目性，可以提高AI系统在处理人类反馈时的可靠性和准确性，从而提升其在实际应用中的表现和用户体验。

📄 摘要（原文）

Reinforcement Learning from Human Feedback (RLHF) assumes annotator preferences reflect stable internal states. We challenge this through three experiments spanning the preference pipeline. In a human choice blindness study, 91% of surreptitiously swapped preferences go undetected, extending choice blindness to third-person evaluative comparison of unfamiliar text. Testing fifteen LLM judges as potential replacements, we find detection relies on shallow text matching rather than genuine self-monitoring: removing prior reasoning from context causes blindness to surge from near-zero to over 50%, while explicit social pressure induces near-universal compliance. In a dose-response experiment across two architectures from 86M to 2B parameters, one-sixth to one-third of labels must be corrupted before the reward signal halves, yet standard pairwise accuracy remains virtually unchanged. A Best-of-N evaluation confirms this translates to downstream policy degradation: at 50% corruption, reward-guided selection produces no improvement over random sampling, while the proxy model reports monotonically increasing scores. Together, these results reveal a preference construction problem: the signal entering RLHF is shaped by elicitation context in ways that neither human metacognition, LLM self-monitoring, nor standard evaluation metrics can detect.

Aligning to Illusions: Choice Blindness in Human and AI Feedback

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理