Are Language Models Sensitive to Morally Irrelevant Distractors?

📄 arXiv: 2602.09416v1 📥 PDF

作者: Andrew Shaw, Christina Hahn, Catherine Rasgaitis, Yash Mishra, Alisa Liu, Natasha Jaques, Yulia Tsvetkov, Amy X. Zhang

分类: cs.CL, cs.CY

发布日期: 2026-02-10


💡 一句话要点

揭示语言模型道德判断的脆弱性:无关干扰因素可显著影响其决策

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 语言模型 道德判断 情境主义 道德干扰 认知偏差

📋 核心要点

  1. 现有道德基准假设LLM具有稳定的道德偏好,忽略了情境因素的影响。
  2. 该研究借鉴情境主义道德心理学,探究无关干扰因素对LLM道德判断的影响。
  3. 实验表明,道德干扰因素能显著改变LLM的道德判断,即使在低歧义场景下。

📝 摘要(中文)

随着大型语言模型(LLM)在重要领域的快速发展和应用,确保LLM的行为与人类价值观对齐变得日益重要。现有的道德基准通常使用价值陈述、道德场景或心理问卷来提示LLM,并隐含地假设LLM报告的是相对稳定的道德偏好。然而,道德心理学研究表明,人类的道德判断容易受到与道德无关的情境因素的影响,例如闻到肉桂卷的味道或环境噪声水平。本文借鉴道德心理学的“情境主义”观点,评估LLM是否表现出与人类相似的认知道德偏差。我们构建了一个包含60个“道德干扰因素”的新型多模态数据集,这些干扰因素来自现有的情感图像和叙事心理学数据集,与所呈现的情境没有道德关联。通过将这些干扰因素注入到现有的道德基准中,并测量它们对LLM响应的影响,我们发现即使在低歧义场景中,道德干扰因素也能使LLM的道德判断发生超过30%的改变,这突出了对LLM进行更具情境性的道德评估和更细致的认知道德建模的必要性。

🔬 方法详解

问题定义:论文旨在研究大型语言模型(LLM)在进行道德判断时,是否会受到与道德无关的干扰因素的影响。现有方法通常假设LLM具有稳定的道德偏好,忽略了情境因素对道德判断的潜在影响,这与人类道德心理学的研究结果相悖,人类的道德判断容易受到情境因素的影响。

核心思路:论文的核心思路是借鉴道德心理学中的“情境主义”观点,即人类的道德判断并非绝对稳定,而是受到情境因素的影响。通过向LLM输入包含与道德无关的干扰因素的道德场景,观察LLM的道德判断是否会发生改变,从而评估LLM是否具有与人类相似的认知道德偏差。

技术框架:该研究的技术框架主要包括以下几个步骤:1)构建包含道德干扰因素的多模态数据集。2)将道德干扰因素注入到现有的道德基准中。3)使用LLM对注入干扰因素的道德场景进行判断。4)分析LLM的道德判断是否受到干扰因素的影响。

关键创新:该研究的关键创新在于:1)首次将道德心理学中的“情境主义”观点应用于LLM的道德评估。2)构建了一个包含多种类型的道德干扰因素的多模态数据集。3)揭示了LLM的道德判断容易受到与道德无关的干扰因素的影响,挑战了LLM具有稳定道德偏好的假设。

关键设计:论文的关键设计包括:1)道德干扰因素的选择:从现有的情感图像和叙事心理学数据集中选择与道德场景没有直接关联,但具有情感色彩的图像和叙事作为干扰因素。2)道德基准的选择:选择现有的、被广泛使用的道德基准,以保证实验结果的可比性。3)LLM的选择:选择具有代表性的、性能良好的LLM,以保证实验结果的可靠性。4)实验指标的设计:设计合适的指标来量化道德干扰因素对LLM道德判断的影响,例如道德判断的改变幅度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,道德干扰因素能够显著改变LLM的道德判断,即使在低歧义场景下,LLM的道德判断改变幅度也超过30%。这一结果表明,LLM的道德判断并非绝对稳定,而是容易受到与道德无关的情境因素的影响。该研究挑战了LLM具有稳定道德偏好的假设,并强调了对LLM进行更具情境性的道德评估的必要性。

🎯 应用场景

该研究成果可应用于提升LLM在伦理敏感场景中的可靠性和安全性。通过了解LLM道德判断的脆弱性,可以设计更鲁棒的道德评估方法,并开发能够减轻无关因素干扰的LLM。这对于在医疗、法律、金融等高风险领域部署LLM至关重要,有助于确保AI系统做出符合人类价值观的决策。

📄 摘要(原文)

With the rapid development and uptake of large language models (LLMs) across high-stakes settings, it is increasingly important to ensure that LLMs behave in ways that align with human values. Existing moral benchmarks prompt LLMs with value statements, moral scenarios, or psychological questionnaires, with the implicit underlying assumption that LLMs report somewhat stable moral preferences. However, moral psychology research has shown that human moral judgements are sensitive to morally irrelevant situational factors, such as smelling cinnamon rolls or the level of ambient noise, thereby challenging moral theories that assume the stability of human moral judgements. Here, we draw inspiration from this "situationist" view of moral psychology to evaluate whether LLMs exhibit similar cognitive moral biases to humans. We curate a novel multimodal dataset of 60 "moral distractors" from existing psychological datasets of emotionally-valenced images and narratives which have no moral relevance to the situation presented. After injecting these distractors into existing moral benchmarks to measure their effects on LLM responses, we find that moral distractors can shift the moral judgements of LLMs by over 30% even in low-ambiguity scenarios, highlighting the need for more contextual moral evaluations and more nuanced cognitive moral modeling of LLMs.