Do Gender Cues Affect LLM Value Trade-offs? Evidence from a Controlled Decision Benchmark

作者: Yangyang Liu, Dong Yu, Pengyuan Liu

分类: cs.CL

发布日期: 2026-06-01

💡 一句话要点

构建可控决策基准RVDB，揭示性别线索对LLM价值权衡的系统性影响

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 性别偏见 价值对齐 决策基准 公平性 可控实验 行为审计

📋 核心要点

现有LLM在价值敏感决策中易受无关人口统计学线索影响，导致不公平或有偏见的决策。
提出Realistic Value Decision Benchmark (RVDB)，通过控制变量，专门评估性别线索对LLM决策的影响。
实验表明，性别线索会引起系统性的决策翻转，尤其是在价值边界模糊和决策严重性较高的情况下。

📝 摘要（中文）

大型语言模型越来越多地应用于价值敏感的决策场景，在这些场景中，无关的人口统计学线索不应改变判断。我们构建了现实价值决策基准（RVDB），这是一个可控的基准，它只改变角色-性别配置，同时保持场景、有序价值对、角色、候选决策、价值距离和决策严重性不变。通过对七个模型进行位置平衡评估，我们测试了模型在性别扰动下是否保持决策不变性，以及它们的自我归因是否反映了观察到的行为变化。我们发现，显式的性别线索会引起有界但系统的决策翻转，包括在显式的性别归因提示下，该提示要求模型报告性别是否影响了它们的选择。跨性别的角色互换揭示了一致的女性-提议-决策不对称性，而模型通常将翻转的决策归因于“无影响”或其他非性别因素。进一步的分析表明，性别效应集中在不太确定的价值边界附近和更严重的决策情境下，这表明性别线索充当局部边界移动因素，而不是对价值推理的全局覆盖。价值排序在很大程度上保持稳定，但有序价值对的权衡在角色-性别配置中发生不均匀的变化。这些结果表明，性别可以在行为上进入LLM的价值权衡，同时在自我归因中保持模糊，这促使我们进行超出基于解释的评估之外的可控行为审计。

🔬 方法详解

问题定义：论文旨在解决大型语言模型（LLM）在价值敏感决策场景中，是否会受到性别线索的影响，从而产生有偏见的决策的问题。现有方法缺乏对这种影响的系统性评估，并且难以区分性别线索与其他因素的干扰。

核心思路：论文的核心思路是构建一个可控的决策基准（RVDB），通过精确控制场景、价值对、角色等因素，只改变角色-性别配置，从而隔离并评估性别线索对LLM决策的影响。通过观察LLM在不同性别配置下的决策变化，以及LLM对自身决策过程的解释，来揭示性别线索在LLM价值权衡中的作用。

技术框架：RVDB基准包含一系列决策场景，每个场景都包含固定的角色、候选决策、价值距离和决策严重性。关键在于，每个场景都存在不同的角色-性别配置，例如，男性提议者和女性接受者，以及女性提议者和男性接受者。论文使用位置平衡评估，确保模型不会因为候选决策的位置而产生偏差。此外，论文还设计了性别归因提示，要求模型报告性别是否影响了它们的决策。

关键创新：RVDB基准的核心创新在于其可控性。通过精确控制变量，论文能够隔离并量化性别线索对LLM决策的影响。此外，论文还结合了行为观察和自我归因分析，从而更全面地了解性别线索在LLM决策过程中的作用。与现有方法相比，RVDB能够更准确地评估LLM的公平性和避免偏见的能力。

关键设计：RVDB的关键设计包括：1) 场景设计，确保场景具有现实意义和价值敏感性；2) 角色-性别配置，系统性地改变角色的性别，以评估性别线索的影响；3) 位置平衡评估，避免位置偏差；4) 性别归因提示，要求模型报告性别是否影响了它们的决策；5) 价值距离和决策严重性，用于分析性别效应在不同决策情境下的变化。

🖼️ 关键图片

📊 实验亮点

实验结果表明，显式的性别线索会导致LLM产生系统性的决策翻转。跨性别的角色互换揭示了女性-提议-决策不对称性。性别效应集中在价值边界模糊和决策严重性较高的情况下。即使在明确要求模型报告性别影响的情况下，模型也常常将决策翻转归因于非性别因素。这些结果表明，性别偏见可能隐藏在LLM的自我解释中，需要更严格的行为审计。

🎯 应用场景

该研究成果可应用于开发更公平、更可靠的LLM决策系统。通过使用RVDB基准进行评估，可以识别并减轻LLM中存在的性别偏见。这对于在招聘、信贷评估、医疗诊断等高风险领域部署LLM至关重要，有助于确保决策的公正性和公平性，避免歧视。

📄 摘要（原文）

Large language models are increasingly used in value-sensitive decision settings, where irrelevant demographic cues should not alter judgments. We construct the Realistic Value Decision Benchmark (RVDB), a controlled benchmark that varies only the role-gender configuration while holding the scenario, ordered value pair, roles, candidate decisions, Value Distance, and Decision Severity fixed. Using a position-balanced evaluation across seven models, we test whether models preserve decision invariance under gender perturbations and whether their self-attributions reflect observed behavioral changes. We find that explicit gender cues induce bounded but systematic decision flips, including under an explicit gender-attribution prompt that asks models to report whether gender influenced their choice. Cross-gender role swaps reveal a consistent female-proposed-decision asymmetry, while models often attribute flipped decisions to No Influence or other non-gender factors. Further analysis shows that gender effects concentrate near less determinate value boundaries and under more severe decision contexts, suggesting that gender cues act as local boundary-shifting factors rather than global overrides of value reasoning. Value rankings remain largely stable, but ordered value-pair trade-offs shift unevenly across role-gender configurations. These results show that gender can enter LLM value trade-offs behaviorally while remaining obscured in self-attribution, motivating controlled behavioral audits beyond explanation-based evaluation.

Do Gender Cues Affect LLM Value Trade-offs? Evidence from a Controlled Decision Benchmark

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理