Do Emotions Influence Moral Judgment in Large Language Models?
作者: Mohammad Saim, Tianyu Jiang
分类: cs.CL
发布日期: 2026-04-21
备注: 18 pages, 14 figures, 6 tables
💡 一句话要点
研究表明:情感会影响大语言模型的道德判断,且模型能力越强影响越小
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 道德判断 情感影响 情感诱导 伦理对齐
📋 核心要点
- 现有研究较少关注情感对大语言模型道德判断的影响,这是一个重要的研究空白。
- 论文提出一种情感诱导流程,通过注入情感来观察LLM在道德判断上的变化。
- 实验发现情感会显著影响LLM的道德判断,但人类标注数据未观察到类似现象。
📝 摘要(中文)
本文研究了情感对大语言模型道德判断的影响,这是一个此前未被充分探索的领域。作者开发了一种情感诱导流程,将情感注入到道德情境中,并评估了多个数据集和LLM中道德可接受性的变化。观察到一个明确的趋势:积极情绪会增加道德可接受性,而消极情绪会降低它。这种影响足够强大,可以在高达20%的情况下逆转二元道德判断,并且模型能力越强,这种影响越小。进一步的分析表明,某些特定情绪的行为可能与其效价预测相反(例如,悔恨反而会增加可接受性)。一项补充的人工标注研究表明,人类没有表现出这些系统性的变化,表明当前LLM存在对齐差距。
🔬 方法详解
问题定义:论文旨在研究大语言模型(LLM)在进行道德判断时,是否会受到情感因素的影响。现有方法主要关注LLM的情感识别和道德推理能力,但忽略了二者之间的关联性,即情感如何影响道德判断。这种忽略可能导致LLM在实际应用中做出不符合人类价值观的决策。
核心思路:论文的核心思路是通过情感诱导,即在道德情境中注入特定的情感,然后观察LLM在道德可接受性方面的变化。通过系统性地改变情境中的情感色彩,可以量化情感对LLM道德判断的影响程度和方向。
技术框架:论文的技术框架主要包含以下几个阶段:1) 构建包含道德情境的数据集;2) 设计情感诱导流程,将情感注入到道德情境中,生成带有情感色彩的道德问题;3) 使用不同的LLM对带有情感色彩的道德问题进行道德判断,评估道德可接受性的变化;4) 进行人工标注研究,对比人类和LLM在情感影响下的道德判断差异。
关键创新:论文的关键创新在于提出了一个情感诱导流程,能够系统性地将情感注入到道德情境中,从而研究情感对LLM道德判断的影响。此外,论文还发现,LLM的情感影响与模型能力呈负相关,即能力越强的模型受情感影响越小。
关键设计:情感诱导流程的具体实现方式未知,论文可能使用了prompt工程或微调等技术来注入情感。道德可接受性的评估指标也未明确说明,可能使用了二元判断(可接受/不可接受)或连续评分等方式。具体的模型参数设置、损失函数和网络结构等细节也未在摘要中提及,需要查阅原文才能了解。
🖼️ 关键图片
📊 实验亮点
实验结果表明,情感对LLM的道德判断有显著影响,积极情绪会增加道德可接受性,消极情绪则降低它。在高达20%的情况下,情感的影响甚至可以逆转二元道德判断。此外,研究还发现,模型能力越强,受情感影响越小。人工标注研究表明,人类的道德判断不受类似情感影响,揭示了LLM与人类在道德推理上的对齐差距。
🎯 应用场景
该研究成果可应用于提升大语言模型在伦理敏感领域的决策能力,例如医疗诊断、法律咨询等。通过了解情感对LLM道德判断的影响,可以设计更鲁棒、更符合人类价值观的AI系统。未来的研究可以进一步探索如何减轻或消除情感偏差,使LLM的道德判断更加客观和公正。
📄 摘要(原文)
Large language models have been extensively studied for emotion recognition and moral reasoning as distinct capabilities, yet the extent to which emotions influence moral judgment remains underexplored. In this work, we develop an emotion-induction pipeline that infuses emotion into moral situations and evaluate shifts in moral acceptability across multiple datasets and LLMs. We observe a directional pattern: positive emotions increase moral acceptability and negative emotions decrease it, with effects strong enough to reverse binary moral judgments in up to 20% of cases, and with susceptibility scaling inversely with model capability. Our analysis further reveals that specific emotions can sometimes behave contrary to what their valence would predict (e.g., remorse paradoxically increases acceptability). A complementary human annotation study shows humans do not exhibit these systematic shifts, indicating an alignment gap in current LLMs.