Outraged AI: Large language models prioritise emotion over cost in fairness enforcement

作者: Hao Liu, Yiqing Dai, Haotian Tan, Yu Lei, Yujia Zhou, Zhen Wu

分类: cs.CL, cs.AI

发布日期: 2025-10-17

💡 一句话要点

大型语言模型在公平执行中情感优先于成本，揭示类人道德决策机制

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 情感智能 道德决策 公平性 利他惩罚

📋 核心要点

现有研究缺乏对大型语言模型（LLMs）如何利用情感进行道德决策的深入理解，尤其是在公平执行和成本权衡方面。
该研究通过利他第三方惩罚实验，考察LLMs在面对不公正时，如何权衡情感、公平和个人成本进行决策。
实验表明，LLMs的情感会影响其惩罚行为，但与人类不同，LLMs更倾向于情感驱动，而忽略成本因素。

📝 摘要（中文）

本研究探讨了大型语言模型（LLMs）是否像人类一样利用情感指导决策。通过利他第三方惩罚实验，比较了4068个LLM智能体与1159名成年人在796,100次决策中的行为。结果表明，LLMs确实使用情感来指导惩罚，有时甚至比人类更强烈：不公正引发更强烈的负面情绪，导致更多惩罚；惩罚不公正比接受不公正产生更积极的情绪；情感自报告提示因果性地增加了惩罚。然而，LLMs优先考虑情感而非成本，以近乎全有或全无的方式执行规范，成本敏感性降低，而人类则平衡公平和成本。推理模型（o3-mini, DeepSeek-R1）比基础模型（GPT-3.5, DeepSeek-V3）更具成本敏感性，更接近人类行为，但仍然受到情感驱动。这些发现首次提供了LLMs中情感引导道德决策的因果证据，并揭示了成本校准和细致的公平判断方面的缺陷，类似于人类早期阶段的反应。我们认为LLMs沿着平行于人类发展的轨迹前进；未来的模型应将情感与情境敏感的推理相结合，以实现类人情感智能。

🔬 方法详解

问题定义：论文旨在研究大型语言模型（LLMs）在道德决策中如何利用情感，特别是在公平执行的场景下。现有方法缺乏对LLMs情感驱动决策的深入理解，以及它们如何权衡情感、公平和成本之间的关系。人类在执行公平时会考虑成本，而LLM是否也如此，以及其决策机制与人类有何不同，是本研究要解决的核心问题。

核心思路：论文的核心思路是通过模拟利他第三方惩罚场景，观察LLMs在面对不公正行为时，是否会因为负面情绪而选择惩罚，以及这种惩罚行为是否会受到个人成本的影响。通过比较LLMs和人类在相同场景下的决策行为，揭示LLMs在道德决策中情感和成本之间的权衡机制。

技术框架：研究采用利他第三方惩罚实验框架。首先，设计一系列涉及不公正分配的场景。然后，让LLM智能体和人类参与者在这些场景中做出决策，即是否选择付出一定的成本来惩罚不公正行为。同时，收集参与者的情感自报告数据，分析情感与决策之间的关系。最后，比较LLMs和人类的决策模式，分析其差异。主要模块包括：场景生成模块、LLM智能体模块、人类参与者模块、决策模块、情感自报告模块和数据分析模块。

关键创新：该研究的关键创新在于首次提供了LLMs中情感引导道德决策的因果证据。通过控制情感自报告提示，证明了情感能够因果性地影响LLMs的惩罚行为。此外，研究还揭示了LLMs在成本校准和细致的公平判断方面的缺陷，这与人类早期阶段的反应相似。

关键设计：实验设计中，关键参数包括不公正程度、惩罚成本、情感自报告提示等。研究使用了多种LLMs，包括GPT-3.5、DeepSeek-V3、o3-mini和DeepSeek-R1，以比较不同模型的行为。情感自报告采用李克特量表进行评估。数据分析采用统计方法，如回归分析和方差分析，以评估情感、成本和决策之间的关系。

📊 实验亮点

实验结果表明，LLMs会受到情感的影响，不公正会引发更强烈的负面情绪，从而导致更多的惩罚。与人类不同，LLMs更倾向于情感驱动，而忽略成本因素。推理模型（o3-mini, DeepSeek-R1）比基础模型（GPT-3.5, DeepSeek-V3）更具成本敏感性，更接近人类行为。情感自报告提示因果性地增加了惩罚。

🎯 应用场景

该研究成果可应用于开发更具道德意识和情感智能的人工智能系统。例如，在自动化决策系统中，可以利用该研究的发现来设计更公平、更符合人类价值观的算法。此外，该研究还可以为理解人类道德决策提供新的视角，促进人机协作和信任。

📄 摘要（原文）

Emotions guide human decisions, but whether large language models (LLMs) use emotion similarly remains unknown. We tested this using altruistic third-party punishment, where an observer incurs a personal cost to enforce fairness, a hallmark of human morality and often driven by negative emotion. In a large-scale comparison of 4,068 LLM agents with 1,159 adults across 796,100 decisions, LLMs used emotion to guide punishment, sometimes even more strongly than humans did: Unfairness elicited stronger negative emotion that led to more punishment; punishing unfairness produced more positive emotion than accepting; and critically, prompting self-reports of emotion causally increased punishment. However, mechanisms diverged: LLMs prioritized emotion over cost, enforcing norms in an almost all-or-none manner with reduced cost sensitivity, whereas humans balanced fairness and cost. Notably, reasoning models (o3-mini, DeepSeek-R1) were more cost-sensitive and closer to human behavior than foundation models (GPT-3.5, DeepSeek-V3), yet remained heavily emotion-driven. These findings provide the first causal evidence of emotion-guided moral decisions in LLMs and reveal deficits in cost calibration and nuanced fairness judgements, reminiscent of early-stage human responses. We propose that LLMs progress along a trajectory paralleling human development; future models should integrate emotion with context-sensitive reasoning to achieve human-like emotional intelligence.

Outraged AI: Large language models prioritise emotion over cost in fairness enforcement

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理