Moral Preferences of LLMs Under Directed Contextual Influence
作者: Phil Blandfort, Tushar Karayil, Urja Pawar, Robert Graham, Alex McKenzie, Dmitrii Krasheninnikov
分类: cs.LG, cs.AI, cs.CL, cs.CV, cs.CY
发布日期: 2026-02-26
💡 一句话要点
提出一种评估LLM在定向情境影响下道德偏好的新方法
🎯 匹配领域: 支柱一:机器人控制 (Robot Control)
关键词: 大型语言模型 道德评估 情境影响 偏见分析 电车难题
📋 核心要点
- 现有LLM道德评估方法忽略了实际应用中上下文信息对模型决策的影响。
- 提出一种新的评估框架,通过方向翻转的情境影响来系统测量模型对不同群体的偏好。
- 实验表明,情境影响显著改变模型决策,且推理能力会放大有偏见示例的影响。
📝 摘要(中文)
大型语言模型(LLM)的道德基准通常使用无上下文提示,隐含地假设了稳定的偏好。然而,在实际部署中,提示通常包含上下文信号,例如用户请求、社会规范提示等,这些信号可能会引导决策。本文研究了定向情境影响如何在电车难题式的道德分类场景中重塑决策。我们引入了一个用于评估电车难题式道德分类中定向情境影响的先导评估工具:对于每个人口统计学因素,我们应用匹配的、方向翻转的情境影响,这些影响仅在于它们偏向哪个群体,从而能够系统地测量方向响应。我们发现:(i)情境影响通常会显著改变决策,即使它们仅在表面上相关;(ii)基线偏好不能很好地预测方向可操纵性,因为模型可能看起来是基线中性的,但在影响下表现出系统的可操纵性不对称;(iii)影响可能会适得其反:模型可能会明确声明中立或忽略情境提示,但其选择仍然会发生变化,有时甚至朝着相反的方向变化;(iv)推理会降低平均敏感度,但会放大有偏见的少量样本示例的影响。我们的发现促使我们通过受控的、方向翻转的上下文操作来扩展道德评估,以更好地表征模型行为。
🔬 方法详解
问题定义:现有的大型语言模型道德评估方法主要依赖于无上下文的提示,这忽略了实际应用中用户请求、社会规范等上下文信息对模型决策的影响。这种忽略可能导致模型在部署后表现出与预期不符的道德偏好,从而带来潜在的风险。因此,需要一种能够评估模型在不同上下文影响下道德决策的方法。
核心思路:本文的核心思路是通过引入方向可控的情境影响来评估LLM的道德偏好。具体来说,针对特定的人口统计学因素,设计方向相反但内容相关的上下文提示,观察模型在不同提示下的决策变化。通过这种方式,可以系统地测量模型对不同群体的偏好程度以及对上下文信息的敏感性。
技术框架:该研究构建了一个电车难题式的道德分类评估框架,主要包含以下几个步骤: 1. 场景设计:设计一系列电车难题式的道德困境,涉及不同的人口统计学因素(例如,年龄、性别、种族等)。 2. 提示生成:针对每个道德困境,生成方向相反的上下文提示,例如,一个提示倾向于保护老年人,另一个提示倾向于保护年轻人。 3. 模型推理:将道德困境和上下文提示输入LLM,获取模型的决策结果。 4. 结果分析:分析模型在不同提示下的决策变化,评估模型对不同群体的偏好程度和对上下文信息的敏感性。
关键创新:该研究的关键创新在于引入了方向翻转的情境影响,从而能够系统地测量LLM在不同上下文下的道德偏好。与传统的无上下文评估方法相比,该方法更贴近实际应用场景,能够更全面地评估模型的道德风险。此外,研究还发现,即使模型明确声明中立或忽略上下文提示,其决策仍然会受到影响,这表明模型可能存在潜在的偏见。
关键设计:在提示设计方面,研究人员精心设计了方向相反但内容相关的上下文提示,以确保提示的有效性和可比性。例如,对于年龄因素,一个提示可能强调老年人的经验和智慧,另一个提示可能强调年轻人的潜力和未来。此外,研究人员还使用了少量样本学习(few-shot learning)来引导模型的推理过程,并分析了不同数量和质量的样本对模型决策的影响。研究中使用的LLM包括GPT-3等。
🖼️ 关键图片
📊 实验亮点
研究发现,即使是表面上不相关的情境影响也会显著改变LLM的决策,且模型对不同群体的偏好程度存在不对称性。此外,推理能力反而会放大有偏见示例的影响。例如,模型在明确声明中立的情况下,其决策仍然会受到上下文提示的影响,甚至朝着相反的方向变化。这些发现表明,现有的LLM道德评估方法可能低估了模型的道德风险。
🎯 应用场景
该研究成果可应用于LLM的道德风险评估和缓解。通过评估模型在不同情境下的道德偏好,可以识别潜在的偏见和风险,并采取相应的措施进行干预。例如,可以调整模型的训练数据或修改模型的推理算法,以减少偏见并提高模型的公平性。此外,该研究还可以用于指导LLM的开发和部署,确保模型在实际应用中能够做出符合伦理道德的决策。
📄 摘要(原文)
Moral benchmarks for LLMs typically use context-free prompts, implicitly assuming stable preferences. In deployment, however, prompts routinely include contextual signals such as user requests, cues on social norms, etc. that may steer decisions. We study how directed contextual influences reshape decisions in trolley-problem-style moral triage settings. We introduce a pilot evaluation harness for directed contextual influence in trolley-problem-style moral triage: for each demographic factor, we apply matched, direction-flipped contextual influences that differ only in which group they favor, enabling systematic measurement of directional response. We find that: (i) contextual influences often significantly shift decisions, even when only superficially relevant; (ii) baseline preferences are a poor predictor of directional steerability, as models can appear baseline-neutral yet exhibit systematic steerability asymmetry under influence; (iii) influences can backfire: models may explicitly claim neutrality or discount the contextual cue, yet their choices still shift, sometimes in the opposite direction; and (iv) reasoning reduces average sensitivity, but amplifies the effect of biased few-shot examples. Our findings motivate extending moral evaluations with controlled, direction-flipped context manipulations to better characterize model behavior.