Machine Behavior in Relational Moral Dilemmas: Moral Rightness, Predicted Human Behavior, and Model Decisions
作者: Jiseon Kim, Jea Kwon, Luiz Felipe Vecchietti, Wenchao Dong, Jaehong Kim, Meeyoung Cha
分类: cs.CL
发布日期: 2026-04-23
备注: ACL-Findings 2026
💡 一句话要点
基于关系型道德困境,揭示LLM决策与人类社会规范的偏差
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 道德决策 人际关系 社会规范 告密者困境
📋 核心要点
- 现有LLM在道德决策中缺乏对人际关系的细致考量,可能导致与人类社会规范的偏差。
- 该研究通过“告密者困境”实验,对比道德准则、人类行为预测和LLM决策,揭示三者差异。
- 实验表明,LLM决策更倾向于遵循道德准则,而忽略了关系亲密度对人类行为的影响。
📝 摘要(中文)
人类的道德判断受情境和人际关系的影响。随着大型语言模型(LLM)日益成为决策支持系统,评估它们是否能理解这些社会细微差别至关重要。本研究利用“告密者困境”,通过改变犯罪严重程度和关系亲密程度两个维度来刻画机器行为。研究评估了三个不同的视角:(1)道德正确性(规范性准则),(2)预测的人类行为(描述性社会期望),以及(3)自主模型决策。通过分析推理过程,我们发现了一个明显的跨视角差异:道德正确性始终以公平为导向,而预测的人类行为随着关系亲密度的增加而显著转向忠诚。关键的是,模型决策与道德正确性判断一致,而不是它们自身的行为预测。这种不一致表明,LLM决策优先考虑僵化的、规范性规则,而不是其内部世界建模中存在的社会敏感性,这种差距可能导致实际部署中的重大偏差。
🔬 方法详解
问题定义:论文旨在研究大型语言模型(LLM)在关系型道德困境中的决策行为,并分析其与人类道德判断和社会规范的差异。现有方法通常忽略了人际关系对道德决策的影响,导致LLM在实际应用中可能产生与人类期望不符的结果。
核心思路:论文的核心思路是通过设计一个基于“告密者困境”的实验,系统性地改变犯罪严重程度和关系亲密程度这两个关键变量,从而考察LLM在不同情境下的决策行为。通过对比LLM的决策、道德正确性判断以及人类行为预测,揭示LLM在道德推理和社会认知方面的局限性。
技术框架:该研究的技术框架主要包括以下几个部分:1) 设计“告密者困境”实验,构建不同情境下的道德决策场景;2) 利用LLM(具体模型未知)对每个场景进行决策,并记录其推理过程;3) 收集人类对每个场景的道德正确性判断和行为预测;4) 对比分析LLM的决策、道德正确性判断和人类行为预测,识别三者之间的差异;5) 分析LLM的推理过程,探究其决策背后的逻辑。
关键创新:该研究的关键创新在于:1) 系统性地研究了人际关系对LLM道德决策的影响,弥补了现有研究的不足;2) 通过对比LLM的决策、道德正确性判断和人类行为预测,揭示了LLM在道德推理和社会认知方面的局限性;3) 分析了LLM的推理过程,为改进LLM的道德决策能力提供了新的思路。
关键设计:论文的关键设计包括:1) “告密者困境”实验的设计,需要确保实验场景具有足够的道德复杂性和现实意义;2) 关系亲密程度的量化,需要选择合适的指标来衡量不同关系的亲密程度;3) LLM的选择,需要选择具有代表性的LLM,并对其进行适当的prompting,以确保其能够理解实验场景并做出合理的决策;4) 数据分析方法,需要选择合适的统计方法来分析LLM的决策、道德正确性判断和人类行为预测。
🖼️ 关键图片
📊 实验亮点
实验结果表明,LLM的决策更倾向于遵循道德准则,而忽略了关系亲密度对人类行为的影响。具体来说,LLM的决策与道德正确性判断高度一致,但与人类行为预测存在显著差异。这表明LLM在道德推理方面存在局限性,需要进一步改进。
🎯 应用场景
该研究成果可应用于开发更符合人类社会规范的AI系统,尤其是在涉及伦理和道德决策的领域,如自动驾驶、医疗诊断、法律咨询等。通过提升LLM对人际关系的理解和推理能力,可以减少AI系统在实际应用中可能产生的偏差和冲突,提高其可靠性和可信度。
📄 摘要(原文)
Human moral judgment is context-dependent and modulated by interpersonal relationships. As large language models (LLMs) increasingly function as decision-support systems, determining whether they encode these social nuances is critical. We characterize machine behavior using the Whistleblower's Dilemma by varying two experimental dimensions: crime severity and relational closeness. Our study evaluates three distinct perspectives: (1) moral rightness (prescriptive norms), (2) predicted human behavior (descriptive social expectations), and (3) autonomous model decision-making. By analyzing the reasoning processes, we identify a clear cross-perspective divergence: while moral rightness remains consistently fairness-oriented, predicted human behavior shifts significantly toward loyalty as relational closeness increases. Crucially, model decisions align with moral rightness judgments rather than their own behavioral predictions. This inconsistency suggests that LLM decision-making prioritizes rigid, prescriptive rules over the social sensitivity present in their internal world-modeling, which poses a gap that may lead to significant misalignments in real-world deployments.