Misaligned by Reward: Socially Undesirable Preferences in LLMs

作者: Gayane Ghazaryan, Esra Dönmez

分类: cs.CL, cs.AI, cs.CY

发布日期: 2026-05-06

备注: Preprint

💡 一句话要点

揭示奖励模型社会偏见：LLM中社会不良偏好的评估框架

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 奖励模型 社会偏见 语言模型对齐 伦理推理 安全性评估

📋 核心要点

现有奖励模型评估侧重于指令遵循，忽略了社会期望偏好，导致社会对齐失败难以发现。
提出一个框架，将社会评估数据集转化为成对偏好数据，用于测试奖励模型是否偏好社会不良响应。
实验表明，现有奖励模型在社会智能方面存在不足，且偏见避免与上下文敏感性之间存在权衡。

📝 摘要（中文）

奖励模型是大型语言模型对齐的关键组成部分，在训练过程中充当人类偏好的代理。然而，现有的评估主要集中在广泛的指令遵循基准上，对于这些模型是否能捕捉到社会期望的偏好，提供的洞察力有限。因此，社会对齐方面的重要失败可能会被隐藏。本文将奖励模型基准测试扩展到四个具有社会意义的领域：偏见、安全、道德和伦理推理。我们引入了一个框架，将社会评估数据集转换为成对偏好数据，利用可用的黄金标签和方向性偏见指标。这使我们能够测试奖励模型是否偏好社会不良的响应，以及它们的偏好是否在选定的输出上产生系统性的偏差分布。在五个公开可用的奖励模型和两个用作奖励代理的指令调整模型中，我们发现不同领域之间存在显著差异，没有哪个模型在整体上表现最佳。这些模型远未达到强大的社会智能：它们经常偏好社会不良的选项，并且它们的偏好产生系统性的偏差分布。此外，更强的偏见避免可能会降低对上下文的敏感性，揭示了避免有偏见的结果和保持上下文忠实性之间的关键对齐权衡。这些发现表明，标准的奖励基准不足以评估社会对齐，并强调需要直接衡量奖励模型中编码的社会偏好的评估。

🔬 方法详解

问题定义：现有的大型语言模型（LLM）对齐方法依赖于奖励模型，这些模型旨在学习人类的偏好。然而，目前的评估方法主要关注指令遵循，忽略了模型在社会责任方面的表现，例如是否存在偏见、安全性问题、道德伦理问题等。因此，模型可能在表面上看起来符合指令，但实际上却存在社会不良的偏好。现有方法的痛点在于缺乏针对社会责任的细粒度评估。

核心思路：本文的核心思路是将社会责任评估问题转化为成对偏好学习问题。具体来说，对于每个社会责任领域（偏见、安全、道德、伦理），构建包含多个选项的数据集，并标注哪些选项是社会期望的，哪些是不期望的。然后，利用这些数据训练奖励模型，使其能够区分社会期望的响应和社会不期望的响应。通过评估奖励模型在这些数据集上的表现，可以衡量LLM在社会责任方面的能力。

技术框架：该框架主要包含以下几个阶段：1. 数据集构建：收集或构建包含社会责任相关问题的数据集，例如包含性别歧视、种族歧视等内容的数据集。2. 偏好标注：对于每个问题，标注哪些选项是社会期望的，哪些是不期望的。可以使用人工标注或利用已有的知识库。3. 奖励模型训练：使用标注好的数据训练奖励模型，使其能够预测每个选项的奖励值。4. 评估：使用测试集评估奖励模型的表现，例如计算模型预测的准确率、召回率等。同时，分析模型产生的偏差分布。

关键创新：本文的关键创新在于将社会责任评估问题转化为成对偏好学习问题，并提出了一个通用的评估框架。该框架可以用于评估LLM在多个社会责任领域的能力，并可以帮助发现模型中存在的偏差和安全问题。此外，该研究还揭示了偏见避免与上下文敏感性之间的权衡。

关键设计：在数据集构建方面，作者使用了现有的社会评估数据集，并将其转换为成对偏好数据。在奖励模型训练方面，作者使用了标准的奖励模型训练方法，例如使用交叉熵损失函数。在评估方面，作者使用了多种指标，例如准确率、召回率、F1值等。此外，作者还分析了模型产生的偏差分布，例如计算模型在不同群体上的表现差异。

🖼️ 关键图片

📊 实验亮点

实验结果表明，现有的奖励模型在社会智能方面存在显著不足，经常偏好社会不良的选项，并且它们的偏好产生系统性的偏差分布。此外，更强的偏见避免可能会降低对上下文的敏感性，揭示了避免有偏见的结果和保持上下文忠实性之间的关键对齐权衡。没有哪个模型在所有领域都表现最佳，表明需要针对不同领域进行专门的优化。

🎯 应用场景

该研究成果可应用于提升大型语言模型在社会责任方面的表现，例如减少模型产生的偏见、提高模型的安全性、增强模型的道德伦理推理能力。这有助于构建更加负责任和可信赖的人工智能系统，并促进人工智能技术在各个领域的健康发展。此外，该评估框架可以作为一种标准化的评估工具，用于衡量不同LLM在社会责任方面的表现。

📄 摘要（原文）

Reward models are a key component of large language model alignment, serving as proxies for human preferences during training. However, existing evaluations focus primarily on broad instruction-following benchmarks, providing limited insight into whether these models capture socially desirable preferences. As a result, important failures in social alignment can remain hidden. We extend reward-model benchmarking to four socially consequential domains: bias, safety, morality, and ethical reasoning. We introduce a framework that converts social evaluation datasets into pairwise preference data, leveraging gold labels where available and directional bias indicators otherwise. This enables us to test whether reward models prefer socially undesirable responses, and whether their preferences produce systematically biased distributions over selected outputs. Across five publicly available reward models and two instruction-tuned models used as reward proxies, we find substantial variation across domains, with no single model performing best overall. The models fall well short of strong social intelligence: they often prefer socially undesirable options, and their preferences produce systematically biased distributions. Moreover, stronger bias avoidance can reduce sensitivity to context, revealing a key alignment trade-off between avoiding biased outcomes and preserving contextual faithfulness. These findings show that standard reward benchmarks are insufficient for assessing social alignment and highlight the need for evaluations that directly measure the social preferences encoded in reward models.

Misaligned by Reward: Socially Undesirable Preferences in LLMs

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理