Do Gender Cues Affect LLM Value Trade-offs? Evidence from a Controlled Decision Benchmark
作者: Yangyang Liu, Dong Yu, Pengyuan Liu
分类: cs.CL
发布日期: 2026-06-01
💡 一句话要点
构建可控决策基准RVDB,揭示性别线索对LLM价值权衡的系统性影响
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 性别偏见 价值对齐 决策基准 公平性 可控实验 行为审计
📋 核心要点
- 现有LLM在价值敏感决策中易受无关人口统计学线索影响,导致不公平或有偏见的决策。
- 提出Realistic Value Decision Benchmark (RVDB),通过控制变量,专门评估性别线索对LLM决策的影响。
- 实验表明,性别线索会引起系统性的决策翻转,尤其是在价值边界模糊和决策严重性较高的情况下。
📝 摘要(中文)
大型语言模型越来越多地应用于价值敏感的决策场景,在这些场景中,无关的人口统计学线索不应改变判断。我们构建了现实价值决策基准(RVDB),这是一个可控的基准,它只改变角色-性别配置,同时保持场景、有序价值对、角色、候选决策、价值距离和决策严重性不变。通过对七个模型进行位置平衡评估,我们测试了模型在性别扰动下是否保持决策不变性,以及它们的自我归因是否反映了观察到的行为变化。我们发现,显式的性别线索会引起有界但系统的决策翻转,包括在显式的性别归因提示下,该提示要求模型报告性别是否影响了它们的选择。跨性别的角色互换揭示了一致的女性-提议-决策不对称性,而模型通常将翻转的决策归因于“无影响”或其他非性别因素。进一步的分析表明,性别效应集中在不太确定的价值边界附近和更严重的决策情境下,这表明性别线索充当局部边界移动因素,而不是对价值推理的全局覆盖。价值排序在很大程度上保持稳定,但有序价值对的权衡在角色-性别配置中发生不均匀的变化。这些结果表明,性别可以在行为上进入LLM的价值权衡,同时在自我归因中保持模糊,这促使我们进行超出基于解释的评估之外的可控行为审计。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)在价值敏感决策场景中,是否会受到性别线索的影响,从而产生有偏见的决策的问题。现有方法缺乏对这种影响的系统性评估,并且难以区分性别线索与其他因素的干扰。
核心思路:论文的核心思路是构建一个可控的决策基准(RVDB),通过精确控制场景、价值对、角色等因素,只改变角色-性别配置,从而隔离并评估性别线索对LLM决策的影响。通过观察LLM在不同性别配置下的决策变化,以及LLM对自身决策过程的解释,来揭示性别线索在LLM价值权衡中的作用。
技术框架:RVDB基准包含一系列决策场景,每个场景都包含固定的角色、候选决策、价值距离和决策严重性。关键在于,每个场景都存在不同的角色-性别配置,例如,男性提议者和女性接受者,以及女性提议者和男性接受者。论文使用位置平衡评估,确保模型不会因为候选决策的位置而产生偏差。此外,论文还设计了性别归因提示,要求模型报告性别是否影响了它们的决策。
关键创新:RVDB基准的核心创新在于其可控性。通过精确控制变量,论文能够隔离并量化性别线索对LLM决策的影响。此外,论文还结合了行为观察和自我归因分析,从而更全面地了解性别线索在LLM决策过程中的作用。与现有方法相比,RVDB能够更准确地评估LLM的公平性和避免偏见的能力。
关键设计:RVDB的关键设计包括:1) 场景设计,确保场景具有现实意义和价值敏感性;2) 角色-性别配置,系统性地改变角色的性别,以评估性别线索的影响;3) 位置平衡评估,避免位置偏差;4) 性别归因提示,要求模型报告性别是否影响了它们的决策;5) 价值距离和决策严重性,用于分析性别效应在不同决策情境下的变化。
🖼️ 关键图片
📊 实验亮点
实验结果表明,显式的性别线索会导致LLM产生系统性的决策翻转。跨性别的角色互换揭示了女性-提议-决策不对称性。性别效应集中在价值边界模糊和决策严重性较高的情况下。即使在明确要求模型报告性别影响的情况下,模型也常常将决策翻转归因于非性别因素。这些结果表明,性别偏见可能隐藏在LLM的自我解释中,需要更严格的行为审计。
🎯 应用场景
该研究成果可应用于开发更公平、更可靠的LLM决策系统。通过使用RVDB基准进行评估,可以识别并减轻LLM中存在的性别偏见。这对于在招聘、信贷评估、医疗诊断等高风险领域部署LLM至关重要,有助于确保决策的公正性和公平性,避免歧视。
📄 摘要(原文)
Large language models are increasingly used in value-sensitive decision settings, where irrelevant demographic cues should not alter judgments. We construct the Realistic Value Decision Benchmark (RVDB), a controlled benchmark that varies only the role-gender configuration while holding the scenario, ordered value pair, roles, candidate decisions, Value Distance, and Decision Severity fixed. Using a position-balanced evaluation across seven models, we test whether models preserve decision invariance under gender perturbations and whether their self-attributions reflect observed behavioral changes. We find that explicit gender cues induce bounded but systematic decision flips, including under an explicit gender-attribution prompt that asks models to report whether gender influenced their choice. Cross-gender role swaps reveal a consistent female-proposed-decision asymmetry, while models often attribute flipped decisions to No Influence or other non-gender factors. Further analysis shows that gender effects concentrate near less determinate value boundaries and under more severe decision contexts, suggesting that gender cues act as local boundary-shifting factors rather than global overrides of value reasoning. Value rankings remain largely stable, but ordered value-pair trade-offs shift unevenly across role-gender configurations. These results show that gender can enter LLM value trade-offs behaviorally while remaining obscured in self-attribution, motivating controlled behavioral audits beyond explanation-based evaluation.