Normative Evaluation of Large Language Models with Everyday Moral Dilemmas

📄 arXiv: 2501.18081v1 📥 PDF

作者: Pratik S. Sachdeva, Tom van Nuenen

分类: cs.AI, cs.CY

发布日期: 2025-01-30


💡 一句话要点

利用日常道德困境评估大型语言模型的规范性,揭示其与人类判断的差异

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 道德推理 伦理评估 日常道德困境 规范性评估

📋 核心要点

  1. 现有评估LLM道德规范的方法依赖于简化的调查问卷,未能充分捕捉日常道德困境的复杂性。
  2. 本研究利用Reddit AITA社区的真实道德困境,更细致地评估LLM的道德判断和推理能力。
  3. 实验结果表明,LLM的道德判断与人类存在显著差异,模型间一致性较低,道德推理模式也各不相同。

📝 摘要(中文)

大型语言模型(LLMs)的快速发展促使人们对其编码的道德规范和决策过程进行广泛研究。许多研究依赖于调查问卷式的问题来评估模型与特定人群、道德信仰或政治意识形态的对齐程度。然而,这些方法过于简化了日常道德困境的复杂性和细微差别。本文认为,沿着更详细的人类互动轴审计LLMs对于评估它们可能影响人类信仰和行为的程度至关重要。为此,我们使用来自Reddit的“我是混蛋吗”(AITA)社区的日常道德困境评估LLMs。我们提示七个LLMs对超过10,000个AITA道德困境进行归责并提供解释。然后,我们将LLMs的判断和解释与Reddit用户的判断和解释进行比较,旨在揭示其道德推理模式。结果表明,大型语言模型表现出独特的道德判断模式,与AITA subreddit上的人类评估存在显著差异。LLMs表现出中等到高度的自我一致性,但模型间的协议性较低。对模型解释的进一步分析揭示了模型如何调用各种道德原则的独特模式。这些发现突出了在人工智能系统中实施一致的道德推理的复杂性,以及仔细评估不同模型如何处理伦理判断的必要性。随着LLMs继续被用于需要伦理决策的角色,例如治疗师和同伴,仔细评估对于减轻潜在的偏见和局限性至关重要。

🔬 方法详解

问题定义:论文旨在评估大型语言模型在日常道德困境中的规范性判断能力。现有方法主要通过调查问卷式问题评估LLM与特定人群或意识形态的对齐程度,忽略了真实世界道德困境的复杂性和细微差别,无法有效评估LLM在实际应用中的道德风险。

核心思路:论文的核心思路是利用来自Reddit AITA社区的真实用户发布的道德困境,作为评估LLM道德判断的基准。通过比较LLM与人类用户的判断和解释,揭示LLM在道德推理方面的模式和局限性。这种方法更贴近实际应用场景,能够更全面地评估LLM的道德风险。

技术框架:整体流程包括:1) 从Reddit AITA社区收集道德困境数据;2) 使用Prompt工程提示七个不同的LLM对这些困境进行归责和解释;3) 将LLM的判断和解释与Reddit用户的判断和解释进行比较;4) 分析LLM的自我一致性和模型间一致性;5) 分析LLM在解释中使用的道德原则。

关键创新:关键创新在于使用真实世界的道德困境数据作为评估LLM道德判断的基准,而不是依赖于人工设计的调查问卷。这种方法更具代表性,能够更准确地反映LLM在实际应用中的道德风险。此外,论文还分析了LLM的解释,揭示了其道德推理的模式。

关键设计:论文使用了来自Reddit AITA社区的超过10,000个道德困境。使用了七个不同的LLM,包括不同规模和架构的模型。评估指标包括LLM与人类判断的一致性、LLM的自我一致性和模型间一致性。对LLM的解释进行了文本分析,以识别其使用的道德原则。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,LLM在AITA数据集上的道德判断与人类存在显著差异,表明LLM的道德规范与人类存在偏差。LLM表现出中等到高度的自我一致性,但模型间一致性较低,表明不同LLM的道德判断标准不一致。对LLM解释的分析揭示了其道德推理模式,例如对某些道德原则的过度依赖或忽视。

🎯 应用场景

该研究成果可应用于评估和改进LLM在需要伦理决策的应用场景中的表现,例如心理咨询、人机交互和法律咨询等。通过更准确地评估LLM的道德风险,可以帮助开发者设计更安全、更可靠的AI系统,并减轻潜在的偏见和局限性。未来的研究可以探索如何利用这些发现来提高LLM的道德推理能力。

📄 摘要(原文)

The rapid adoption of large language models (LLMs) has spurred extensive research into their encoded moral norms and decision-making processes. Much of this research relies on prompting LLMs with survey-style questions to assess how well models are aligned with certain demographic groups, moral beliefs, or political ideologies. While informative, the adherence of these approaches to relatively superficial constructs tends to oversimplify the complexity and nuance underlying everyday moral dilemmas. We argue that auditing LLMs along more detailed axes of human interaction is of paramount importance to better assess the degree to which they may impact human beliefs and actions. To this end, we evaluate LLMs on complex, everyday moral dilemmas sourced from the "Am I the Asshole" (AITA) community on Reddit, where users seek moral judgments on everyday conflicts from other community members. We prompted seven LLMs to assign blame and provide explanations for over 10,000 AITA moral dilemmas. We then compared the LLMs' judgments and explanations to those of Redditors and to each other, aiming to uncover patterns in their moral reasoning. Our results demonstrate that large language models exhibit distinct patterns of moral judgment, varying substantially from human evaluations on the AITA subreddit. LLMs demonstrate moderate to high self-consistency but low inter-model agreement. Further analysis of model explanations reveals distinct patterns in how models invoke various moral principles. These findings highlight the complexity of implementing consistent moral reasoning in artificial systems and the need for careful evaluation of how different models approach ethical judgment. As LLMs continue to be used in roles requiring ethical decision-making such as therapists and companions, careful evaluation is crucial to mitigate potential biases and limitations.