Moral Preferences of LLMs Under Directed Contextual Influence

📄 arXiv: 2602.22831 📥 PDF

作者: Phil Blandfort, Tushar Karayil, Urja Pawar, Robert Graham, Alex McKenzie, Dmitrii Krasheninnikov

分类: cs.LG, cs.AI, cs.CL, cs.CV, cs.CY

发布日期: 2026-02-28


💡 一句话要点

提出定向情境影响下的LLM道德偏好评估框架,揭示模型决策易受情境引导且存在反噬现象。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 大型语言模型 道德偏好 情境影响 伦理评估 可操纵性

📋 核心要点

  1. 现有LLM道德评估忽略了实际应用中情境信息对模型决策的影响,可能导致评估结果与实际表现不符。
  2. 论文提出一种新的评估框架,通过控制和反转情境信息,系统性地测量LLM在道德困境中的决策变化。
  3. 实验表明,即使是表面相关的情境信息也会显著影响LLM的决策,且模型存在可操纵性不对称和反噬现象。

📝 摘要(中文)

大型语言模型(LLM)的道德基准通常使用无上下文提示,隐含地假设了稳定的偏好。然而,在实际部署中,提示通常包含情境信号,例如用户请求、社会规范提示等,这些信号可能会引导决策。本文研究了在电车难题式的道德分类场景中,定向情境影响如何重塑决策。我们引入了一个用于电车难题式道德分类中定向情境影响的初步评估工具:对于每个人口统计因素,我们应用匹配的、方向翻转的情境影响,这些影响仅在于它们支持的群体不同,从而能够系统地测量方向响应。我们发现:(i)情境影响通常会显著改变决策,即使只是表面上相关;(ii)基线偏好不能很好地预测方向可操纵性,因为模型可能看起来基线中立,但在影响下表现出系统的可操纵性不对称;(iii)影响可能会适得其反:模型可能会明确声明中立或忽略情境提示,但其选择仍然会发生变化,有时甚至朝着相反的方向变化;(iv)推理减少了平均敏感度,但放大了有偏见的少量样本示例的影响。我们的研究结果促使我们通过受控的、方向翻转的情境操作来扩展道德评估,以更好地表征模型行为。

🔬 方法详解

问题定义:论文旨在研究大型语言模型(LLM)在面对道德困境时,其决策如何受到定向情境信息的影响。现有道德评估方法主要采用无上下文的提示,无法反映真实应用场景中用户请求、社会规范等情境因素对模型决策的潜在影响。这种忽略情境信息的评估方式可能导致对LLM道德偏好的误判,使其在实际部署中产生意想不到的伦理问题。

核心思路:论文的核心思路是通过构建一种可控的情境影响评估框架,系统性地测量LLM在不同情境下的道德决策变化。该框架的核心在于使用“方向翻转”的情境提示,即针对同一人口统计因素,设计两种方向相反的情境信息,分别引导模型偏向不同的群体。通过比较模型在不同情境下的决策差异,可以量化情境信息对模型道德偏好的影响程度和方向。

技术框架:该研究构建了一个基于电车难题的道德分类评估工具,主要流程如下: 1. 情境提示生成:针对特定的人口统计因素(如年龄、性别、种族等),设计方向相反的情境提示。例如,一个提示可能强调拯救年轻人的重要性,而另一个提示则强调拯救老年人的重要性。 2. 模型推理:将包含不同情境提示的电车难题输入LLM,要求模型做出选择(例如,是否牺牲一部分人来拯救另一部分人)。 3. 决策分析:比较模型在不同情境提示下的决策差异,分析情境信息对模型道德偏好的影响程度和方向。 4. 可操纵性评估:通过量化模型在不同情境下的决策变化,评估模型的可操纵性,即模型决策受情境信息影响的程度。

关键创新:论文的关键创新在于提出了“方向翻转”情境提示的设计思想,通过对比模型在相反情境下的决策差异,可以更准确地评估情境信息对模型道德偏好的影响。此外,论文还揭示了LLM在道德决策中存在可操纵性不对称和反噬现象,即模型可能在表面上声称中立,但其决策仍然受到情境信息的影响,甚至朝着相反的方向变化。

关键设计: * 情境提示设计:确保情境提示仅在支持的群体上存在差异,避免引入其他混淆因素。 * 评估指标:使用差异性指标来量化模型在不同情境下的决策差异。 * 模型选择:选择了多种LLM进行评估,包括不同规模和架构的模型。 * 推理方式:对比了直接决策和基于推理的决策方式,研究推理对情境影响的调节作用。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,情境信息会显著影响LLM的道德决策,即使是表面相关的信息。模型在不同情境下的决策差异显著,且存在可操纵性不对称和反噬现象。推理虽然可以降低平均敏感度,但会放大有偏见的少量样本示例的影响。例如,某些模型在特定情境下,决策改变的比例高达20%-30%。

🎯 应用场景

该研究成果可应用于提升LLM的伦理安全性和可靠性。通过更全面地评估模型在不同情境下的道德偏好,可以帮助开发者识别和缓解潜在的伦理风险,并设计更鲁棒的提示工程策略,减少模型决策受不良情境信息的影响。此外,该研究也为开发更公平、更负责任的AI系统提供了新的思路。

📄 摘要(原文)

Moral benchmarks for LLMs typically use context-free prompts, implicitly assuming stable preferences. In deployment, however, prompts routinely include contextual signals such as user requests, cues on social norms, etc. that may steer decisions. We study how directed contextual influences reshape decisions in trolley-problem-style moral triage settings. We introduce a pilot evaluation harness for directed contextual influence in trolley-problem-style moral triage: for each demographic factor, we apply matched, direction-flipped contextual influences that differ only in which group they favor, enabling systematic measurement of directional response. We find that: (i) contextual influences often significantly shift decisions, even when only superficially relevant; (ii) baseline preferences are a poor predictor of directional steerability, as models can appear baseline-neutral yet exhibit systematic steerability asymmetry under influence; (iii) influences can backfire: models may explicitly claim neutrality or discount the contextual cue, yet their choices still shift, sometimes in the opposite direction; and (iv) reasoning reduces average sensitivity, but amplifies the effect of biased few-shot examples. Our findings motivate extending moral evaluations with controlled, direction-flipped context manipulations to better characterize model behavior.