The Convergent Ethics of AI? Analyzing Moral Foundation Priorities in Large Language Models with a Multi-Framework Approach

📄 arXiv: 2504.19255v1 📥 PDF

作者: Chad Coleman, W. Russell Neuman, Ali Dasdan, Safinah Ali, Manan Shah

分类: cs.AI, cs.CY

发布日期: 2025-04-27

备注: 25 pages, 8 figures


💡 一句话要点

提出PRIME框架,多维度评估大语言模型伦理推理能力,揭示模型道德偏好趋同性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 伦理推理 道德评估 道德基础理论 人工智能伦理

📋 核心要点

  1. 现有方法缺乏对LLM伦理推理能力的系统性评估,难以应对其在重要决策场景中的应用。
  2. 提出PRIME框架,从结果论、道德基础理论和科尔伯格发展阶段等多维度分析LLM的道德优先级。
  3. 实验表明,LLM在道德判断上表现出趋同性,重视关怀和公平,但低估权威、忠诚和神圣。

📝 摘要(中文)

随着大型语言模型(LLM)越来越多地应用于重要的决策场景,系统地评估其伦理推理能力变得至关重要。本文介绍了一种名为“推理和内在道德评估优先级”(PRIME)的框架,该框架是一种综合方法,用于分析基础伦理维度上的道德优先级,包括结果论-义务论推理、道德基础理论和科尔伯格的发展阶段。我们通过双重协议方法将该框架应用于六个领先的LLM,该方法结合了直接提问和对已建立的伦理困境的响应分析。我们的分析揭示了惊人的趋同模式:所有评估的模型都表现出对关怀/伤害和公平/欺骗基础的高度重视,同时始终低估权威、忠诚和神圣维度。通过详细检查置信度指标、响应犹豫模式和推理一致性,我们确定当代LLM (1)产生决定性的伦理判断,(2)在道德决策中表现出显著的跨模型一致性,并且(3)通常与经验确立的人类道德偏好相对应。这项研究贡献了一种可扩展、可扩展的伦理基准测试方法,同时突出了当前人工智能道德推理架构中具有希望的能力和系统性局限性——这些见解对于负责任的开发至关重要,因为这些系统承担着越来越重要的社会角色。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)在伦理推理方面缺乏系统性评估的问题。现有方法难以全面衡量LLM在不同伦理维度上的道德优先级,无法有效识别其潜在的伦理风险和偏见。这阻碍了LLM在关键决策场景中的负责任部署。

核心思路:论文的核心思路是构建一个综合性的评估框架,即PRIME(Priorities in Reasoning and Intrinsic Moral Evaluation),该框架能够从多个伦理理论视角(结果论、义务论、道德基础理论、科尔伯格发展阶段)分析LLM的道德推理过程。通过分析LLM在不同伦理困境中的反应,揭示其内在的道德优先级和潜在的偏见。

技术框架:PRIME框架采用双重协议方法:首先,直接提问LLM关于伦理原则的看法;其次,分析LLM对既定伦理困境的回答。框架包含以下主要模块: 1. 伦理维度定义:明确定义需要评估的伦理维度,例如关怀/伤害、公平/欺骗、权威、忠诚和神圣。 2. 困境设计:设计一系列伦理困境,每个困境对应不同的伦理维度。 3. 响应收集:收集LLM对困境的回答,并记录其置信度指标和犹豫模式。 4. 优先级分析:分析LLM的回答,确定其在不同伦理维度上的优先级。 5. 一致性评估:评估LLM在不同困境中的推理一致性。

关键创新:PRIME框架的关键创新在于其综合性,它整合了多种伦理理论,能够从多个角度评估LLM的道德推理能力。与以往侧重于单一伦理理论的方法相比,PRIME框架能够更全面地揭示LLM的道德偏好和潜在风险。此外,该框架具有可扩展性,可以根据需要添加新的伦理维度和困境。

关键设计:论文的关键设计包括: 1. 困境选择:选择具有代表性的伦理困境,确保每个困境能够有效激发LLM在特定伦理维度上的推理。 2. 置信度指标:利用LLM提供的置信度指标,评估其对道德判断的确定程度。 3. 犹豫模式分析:分析LLM在回答伦理困境时的犹豫模式,例如回答时间、修改次数等,以揭示其潜在的道德冲突。

📊 实验亮点

实验结果表明,所有评估的LLM都表现出对关怀/伤害和公平/欺骗基础的高度重视,同时始终低估权威、忠诚和神圣维度。研究还发现,LLM在道德决策中表现出显著的跨模型一致性,并且通常与经验确立的人类道德偏好相对应。这些发现为理解LLM的道德推理能力提供了重要的实证依据。

🎯 应用场景

该研究成果可应用于LLM的伦理风险评估、安全部署和负责任开发。通过PRIME框架,开发者可以更好地了解LLM的道德偏好,从而避免其在关键决策场景中产生不公正或有害的结果。此外,该研究还有助于提高公众对AI伦理问题的认识,促进AI技术的健康发展。

📄 摘要(原文)

As large language models (LLMs) are increasingly deployed in consequential decision-making contexts, systematically assessing their ethical reasoning capabilities becomes a critical imperative. This paper introduces the Priorities in Reasoning and Intrinsic Moral Evaluation (PRIME) framework--a comprehensive methodology for analyzing moral priorities across foundational ethical dimensions including consequentialist-deontological reasoning, moral foundations theory, and Kohlberg's developmental stages. We apply this framework to six leading LLMs through a dual-protocol approach combining direct questioning and response analysis to established ethical dilemmas. Our analysis reveals striking patterns of convergence: all evaluated models demonstrate strong prioritization of care/harm and fairness/cheating foundations while consistently underweighting authority, loyalty, and sanctity dimensions. Through detailed examination of confidence metrics, response reluctance patterns, and reasoning consistency, we establish that contemporary LLMs (1) produce decisive ethical judgments, (2) demonstrate notable cross-model alignment in moral decision-making, and (3) generally correspond with empirically established human moral preferences. This research contributes a scalable, extensible methodology for ethical benchmarking while highlighting both the promising capabilities and systematic limitations in current AI moral reasoning architectures--insights critical for responsible development as these systems assume increasingly significant societal roles.