Are Language Models Consequentialist or Deontological Moral Reasoners?
作者: Keenan Samway, Max Kleiman-Weiner, David Guzman Piedrahita, Rada Mihalcea, Bernhard Schölkopf, Zhijing Jin
分类: cs.CL
发布日期: 2025-05-27 (更新: 2025-10-12)
备注: EMNLP 2025
🔗 代码/项目: GITHUB
💡 一句话要点
提出道德推理分类框架以分析语言模型的伦理判断
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 道德推理 大型语言模型 伦理判断 结果主义 义务论 电车难题 AI安全 可解释性
📋 核心要点
- 现有研究主要集中在大型语言模型的道德判断,而缺乏对其道德推理过程的深入分析。
- 本文提出了一种道德理性分类法,通过分析600多个电车难题,系统分类推理轨迹。
- 研究结果表明,LLMs的推理链更倾向于义务论,而事后解释则转向结果主义,揭示了其伦理考量的复杂性。
📝 摘要(中文)
随着人工智能系统在医疗、法律和治理等领域的应用日益增多,理解它们如何处理伦理复杂场景变得至关重要。以往的研究主要关注大型语言模型(LLMs)的道德判断,而非其背后的道德推理过程。本文通过对600多个不同的电车难题进行大规模分析,提出了一种道德理性分类法,系统地根据结果主义和义务论两种主要伦理理论对推理轨迹进行分类。研究发现,LLMs的推理链倾向于支持基于道德义务的义务论原则,而事后解释则显著转向强调效用的结果主义理性。该框架为理解LLMs如何处理和表达伦理考量提供了基础,推动了在高风险决策环境中安全和可解释的LLMs部署。
🔬 方法详解
问题定义:本文旨在解决大型语言模型在伦理复杂场景中的道德推理过程缺乏深入理解的问题。现有方法主要关注道德判断,而忽视了推理的内在机制。
核心思路:通过对600多个电车难题进行分析,提出了一种道德理性分类法,系统地将推理轨迹分为结果主义和义务论两类,以揭示不同模型的推理模式。
技术框架:研究采用了大规模的电车难题数据集,分析了不同LLMs在处理这些问题时的推理链。主要模块包括数据收集、推理轨迹提取和分类分析。
关键创新:本文的创新在于引入了道德理性分类法,系统性地分析了LLMs的推理过程,填补了以往研究的空白,提供了更深入的伦理理解。
关键设计:在实验中,研究者设计了特定的分类标准,以确保推理轨迹能够准确反映出模型的伦理倾向,使用了多种评估指标来验证分类的有效性。
🖼️ 关键图片
📊 实验亮点
实验结果显示,LLMs在处理电车难题时,其推理链更倾向于义务论原则,而事后解释则显著转向结果主义。这一发现揭示了模型在伦理考量中的复杂性,为理解其决策过程提供了新的视角。
🎯 应用场景
该研究的潜在应用领域包括医疗决策支持、法律判决辅助和政策制定等高风险决策环境。通过理解LLMs的伦理推理过程,可以提高其在复杂伦理场景中的安全性和可解释性,从而增强公众对AI系统的信任。未来,研究成果有望推动更为透明和负责任的AI应用。
📄 摘要(原文)
As AI systems increasingly navigate applications in healthcare, law, and governance, understanding how they handle ethically complex scenarios becomes critical. Previous work has mainly examined the moral judgments in large language models (LLMs), rather than their underlying moral reasoning process. In contrast, we focus on a large-scale analysis of the moral reasoning traces provided by LLMs. Furthermore, unlike prior work that attempted to draw inferences from only a handful of moral dilemmas, our study leverages over 600 distinct trolley problems as probes for revealing the reasoning patterns that emerge within different LLMs. We introduce and test a taxonomy of moral rationales to systematically classify reasoning traces according to two main normative ethical theories: consequentialism and deontology. Our analysis reveals that LLM chains-of-thought tend to favor deontological principles based on moral obligations, while post-hoc explanations shift notably toward consequentialist rationales that emphasize utility. Our framework provides a foundation for understanding how LLMs process and articulate ethical considerations, an important step toward safe and interpretable deployment of LLMs in high-stakes decision-making environments. Our code is available at https://github.com/keenansamway/moral-lens .