Outraged AI: Large language models prioritise emotion over cost in fairness enforcement

📄 arXiv: 2510.17880v1 📥 PDF

作者: Hao Liu, Yiqing Dai, Haotian Tan, Yu Lei, Yujia Zhou, Zhen Wu

分类: cs.CL, cs.AI

发布日期: 2025-10-17


💡 一句话要点

大型语言模型在公平执行中情感优先于成本,揭示类人道德决策机制

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 情感智能 道德决策 公平性 利他惩罚

📋 核心要点

  1. 现有研究缺乏对大型语言模型(LLMs)如何利用情感进行道德决策的深入理解,尤其是在公平执行和成本权衡方面。
  2. 该研究通过利他第三方惩罚实验,考察LLMs在面对不公正时,如何权衡情感、公平和个人成本进行决策。
  3. 实验表明,LLMs的情感会影响其惩罚行为,但与人类不同,LLMs更倾向于情感驱动,而忽略成本因素。

📝 摘要(中文)

本研究探讨了大型语言模型(LLMs)是否像人类一样利用情感指导决策。通过利他第三方惩罚实验,比较了4068个LLM智能体与1159名成年人在796,100次决策中的行为。结果表明,LLMs确实使用情感来指导惩罚,有时甚至比人类更强烈:不公正引发更强烈的负面情绪,导致更多惩罚;惩罚不公正比接受不公正产生更积极的情绪;情感自报告提示因果性地增加了惩罚。然而,LLMs优先考虑情感而非成本,以近乎全有或全无的方式执行规范,成本敏感性降低,而人类则平衡公平和成本。推理模型(o3-mini, DeepSeek-R1)比基础模型(GPT-3.5, DeepSeek-V3)更具成本敏感性,更接近人类行为,但仍然受到情感驱动。这些发现首次提供了LLMs中情感引导道德决策的因果证据,并揭示了成本校准和细致的公平判断方面的缺陷,类似于人类早期阶段的反应。我们认为LLMs沿着平行于人类发展的轨迹前进;未来的模型应将情感与情境敏感的推理相结合,以实现类人情感智能。

🔬 方法详解

问题定义:论文旨在研究大型语言模型(LLMs)在道德决策中如何利用情感,特别是在公平执行的场景下。现有方法缺乏对LLMs情感驱动决策的深入理解,以及它们如何权衡情感、公平和成本之间的关系。人类在执行公平时会考虑成本,而LLM是否也如此,以及其决策机制与人类有何不同,是本研究要解决的核心问题。

核心思路:论文的核心思路是通过模拟利他第三方惩罚场景,观察LLMs在面对不公正行为时,是否会因为负面情绪而选择惩罚,以及这种惩罚行为是否会受到个人成本的影响。通过比较LLMs和人类在相同场景下的决策行为,揭示LLMs在道德决策中情感和成本之间的权衡机制。

技术框架:研究采用利他第三方惩罚实验框架。首先,设计一系列涉及不公正分配的场景。然后,让LLM智能体和人类参与者在这些场景中做出决策,即是否选择付出一定的成本来惩罚不公正行为。同时,收集参与者的情感自报告数据,分析情感与决策之间的关系。最后,比较LLMs和人类的决策模式,分析其差异。主要模块包括:场景生成模块、LLM智能体模块、人类参与者模块、决策模块、情感自报告模块和数据分析模块。

关键创新:该研究的关键创新在于首次提供了LLMs中情感引导道德决策的因果证据。通过控制情感自报告提示,证明了情感能够因果性地影响LLMs的惩罚行为。此外,研究还揭示了LLMs在成本校准和细致的公平判断方面的缺陷,这与人类早期阶段的反应相似。

关键设计:实验设计中,关键参数包括不公正程度、惩罚成本、情感自报告提示等。研究使用了多种LLMs,包括GPT-3.5、DeepSeek-V3、o3-mini和DeepSeek-R1,以比较不同模型的行为。情感自报告采用李克特量表进行评估。数据分析采用统计方法,如回归分析和方差分析,以评估情感、成本和决策之间的关系。

📊 实验亮点

实验结果表明,LLMs会受到情感的影响,不公正会引发更强烈的负面情绪,从而导致更多的惩罚。与人类不同,LLMs更倾向于情感驱动,而忽略成本因素。推理模型(o3-mini, DeepSeek-R1)比基础模型(GPT-3.5, DeepSeek-V3)更具成本敏感性,更接近人类行为。情感自报告提示因果性地增加了惩罚。

🎯 应用场景

该研究成果可应用于开发更具道德意识和情感智能的人工智能系统。例如,在自动化决策系统中,可以利用该研究的发现来设计更公平、更符合人类价值观的算法。此外,该研究还可以为理解人类道德决策提供新的视角,促进人机协作和信任。

📄 摘要(原文)

Emotions guide human decisions, but whether large language models (LLMs) use emotion similarly remains unknown. We tested this using altruistic third-party punishment, where an observer incurs a personal cost to enforce fairness, a hallmark of human morality and often driven by negative emotion. In a large-scale comparison of 4,068 LLM agents with 1,159 adults across 796,100 decisions, LLMs used emotion to guide punishment, sometimes even more strongly than humans did: Unfairness elicited stronger negative emotion that led to more punishment; punishing unfairness produced more positive emotion than accepting; and critically, prompting self-reports of emotion causally increased punishment. However, mechanisms diverged: LLMs prioritized emotion over cost, enforcing norms in an almost all-or-none manner with reduced cost sensitivity, whereas humans balanced fairness and cost. Notably, reasoning models (o3-mini, DeepSeek-R1) were more cost-sensitive and closer to human behavior than foundation models (GPT-3.5, DeepSeek-V3), yet remained heavily emotion-driven. These findings provide the first causal evidence of emotion-guided moral decisions in LLMs and reveal deficits in cost calibration and nuanced fairness judgements, reminiscent of early-stage human responses. We propose that LLMs progress along a trajectory paralleling human development; future models should integrate emotion with context-sensitive reasoning to achieve human-like emotional intelligence.