The Morality of Probability: How Implicit Moral Biases in LLMs May Shape the Future of Human-AI Symbiosis

📄 arXiv: 2509.10297v1 📥 PDF

作者: Eoin O'Doherty, Nicole Weinrauch, Andrew Talone, Uri Klempner, Xiaoyuan Yi, Xing Xie, Yi Zeng

分类: cs.AI

发布日期: 2025-09-12

备注: Work in progress


💡 一句话要点

揭示LLM中隐含的道德偏见,探索人机共生的未来

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 道德推理 价值观对齐 人机共生 AI伦理

📋 核心要点

  1. 现有AI系统在道德决策方面缺乏透明度,难以与人类价值观对齐,阻碍了人机共生。
  2. 通过定量实验评估LLM在道德困境中的选择,揭示其隐含的道德偏见和价值倾向。
  3. 实验表明,LLM普遍偏向关怀和美德价值观,而推理能力和文化背景会影响道德判断。

📝 摘要(中文)

本文探讨了如何使AI决策与人类道德价值观保持一致。研究调查了领先的AI系统在道德困境中如何优先考虑道德结果,以及这揭示了人机共生的前景。研究提出了两个核心问题:(1) 最先进的大型语言模型(LLM)在面对困境时,隐含地偏向哪些道德价值观?(2) 模型架构、文化起源和可解释性的差异如何影响这些道德偏好?通过对六个LLM进行定量实验,对18个代表五个道德框架的困境中的结果进行排序和评分。研究发现了一致的价值偏见。所有模型都将关怀和美德价值观的结果评为最具道德性,而自由主义选择则一直受到惩罚。具有推理能力的模型对上下文表现出更高的敏感性,并提供了更丰富的解释,而非推理模型则产生了更统一但不透明的判断。这项研究做出了三项贡献:(i) 实证上,它提供了对具有文化差异的LLM进行大规模道德推理的比较;(ii) 理论上,它将概率模型行为与潜在的价值编码联系起来;(iii) 实践上,它强调了可解释性和文化意识作为指导AI走向透明、一致和共生未来的关键设计原则。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)在道德决策中存在的隐含偏见问题。现有方法缺乏对LLM道德价值观的系统性评估,导致AI系统可能做出与人类道德准则不符的决策,从而阻碍人机协作。现有方法难以解释LLM的道德推理过程,使得用户难以理解和信任AI的决策。

核心思路:论文的核心思路是通过设计一系列道德困境,并利用LLM对不同解决方案进行排序和评分,从而量化LLM的道德偏好。通过比较不同架构、文化背景和可解释性的LLM,分析这些因素对道德判断的影响。这种方法能够揭示LLM隐含的道德价值观,并为开发更符合人类道德准则的AI系统提供指导。

技术框架:该研究的技术框架主要包括以下几个阶段: 1. 道德困境构建:构建包含18个道德困境的数据集,这些困境代表了五种不同的道德框架(例如,关怀、公平、忠诚、权威、圣洁/美德)。 2. LLM评估:使用六个不同的LLM(包括具有推理能力的和不具有推理能力的模型,以及来自不同文化背景的模型)对每个困境中的不同解决方案进行排序和评分。 3. 结果分析:分析LLM的排序和评分结果,以确定其隐含的道德偏好。比较不同LLM之间的差异,并分析模型架构、文化背景和可解释性对道德判断的影响。

关键创新:该研究的关键创新在于: 1. 大规模比较:对多个具有文化差异的LLM进行大规模的道德推理比较,揭示了不同模型之间的道德偏好差异。 2. 价值编码关联:将概率模型行为与潜在的价值编码联系起来,为理解LLM的道德决策提供了新的视角。 3. 可解释性强调:强调了可解释性和文化意识在AI设计中的重要性,为开发更透明、一致和共生的AI系统提供了指导。

关键设计:论文的关键设计包括: 1. 道德困境的选择:选择具有代表性的道德困境,覆盖不同的道德框架,以确保评估的全面性。 2. LLM的选择:选择具有不同架构、文化背景和可解释性的LLM,以分析这些因素对道德判断的影响。 3. 评分标准的设计:设计合理的评分标准,以量化LLM对不同解决方案的偏好。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,所有LLM都普遍偏向关怀和美德价值观,而对自由主义选择持负面态度。具有推理能力的模型对上下文的敏感性更高,能够提供更丰富的解释。不同文化背景的LLM在道德判断上存在差异,表明文化因素会影响AI的道德偏好。这些发现强调了在AI设计中考虑可解释性和文化意识的重要性。

🎯 应用场景

该研究成果可应用于开发更符合人类道德价值观的AI系统,例如自动驾驶汽车、医疗诊断系统和金融风险评估系统。通过理解和纠正LLM中的道德偏见,可以提高AI系统的公平性、透明度和可信度,促进人机协作,并降低AI系统造成负面影响的风险。该研究还有助于制定更完善的AI伦理准则和监管政策。

📄 摘要(原文)

Artificial intelligence (AI) is advancing at a pace that raises urgent questions about how to align machine decision-making with human moral values. This working paper investigates how leading AI systems prioritize moral outcomes and what this reveals about the prospects for human-AI symbiosis. We address two central questions: (1) What moral values do state-of-the-art large language models (LLMs) implicitly favour when confronted with dilemmas? (2) How do differences in model architecture, cultural origin, and explainability affect these moral preferences? To explore these questions, we conduct a quantitative experiment with six LLMs, ranking and scoring outcomes across 18 dilemmas representing five moral frameworks. Our findings uncover strikingly consistent value biases. Across all models, Care and Virtue values outcomes were rated most moral, while libertarian choices were consistently penalized. Reasoning-enabled models exhibited greater sensitivity to context and provided richer explanations, whereas non-reasoning models produced more uniform but opaque judgments. This research makes three contributions: (i) Empirically, it delivers a large-scale comparison of moral reasoning across culturally distinct LLMs; (ii) Theoretically, it links probabilistic model behaviour with underlying value encodings; (iii) Practically, it highlights the need for explainability and cultural awareness as critical design principles to guide AI toward a transparent, aligned, and symbiotic future.