Are Large Language Models Moral Hypocrites? A Study Based on Moral Foundations

📄 arXiv: 2405.11100v2 📥 PDF

作者: José Luiz Nunes, Guilherme F. C. F. Almeida, Marcelo de Araujo, Simone D. J. Barbosa

分类: cs.AI, cs.CL

发布日期: 2024-05-17 (更新: 2024-10-22)

备注: Final version available at: https://ojs.aaai.org/index.php/AIES/article/view/31704 13 pages, 4 figures, 2 tables

期刊: NUNES, J. L.; ALMEIDA, GUILHERME F.C.F. ; ARAUJO, M. ; BARBOSA, SIMONE D J. Are Large Language Models Moral Hypocrites? A Study Based on Moral Foundations. In: AAAI/ACM Conference on AI, Ethics, and Society, 2024, San Jose, Califórnia

DOI: 10.17605/OSF.IO/TBM7D


💡 一句话要点

基于道德基础理论,揭示大型语言模型在抽象与具象判断中存在的道德虚伪性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 道德基础理论 道德虚伪 道德判断 人工智能伦理

📋 核心要点

  1. 现有方法缺乏有效评估大型语言模型是否符合重要人类价值观的手段。
  2. 该研究通过对比LLM在抽象道德判断和具体情境下的表现,来评估其是否存在道德虚伪性。
  3. 实验发现GPT-4和Claude 2.1在抽象和具象判断中存在矛盾,表现出道德虚伪性。

📝 摘要(中文)

大型语言模型(LLMs)已成为人工智能领域辩论的焦点。然而,如何评估LLMs对重要人类价值观的遵循仍然存在差距。本文研究了最先进的LLMs,GPT-4和Claude 2.1(Gemini Pro和LLAMA 2未能生成有效结果)是否存在道德虚伪性。我们采用了两种基于道德基础理论的研究工具:(i)道德基础问卷(MFQ),用于调查在抽象道德判断中哪些价值观被认为是道德相关的;(ii)道德基础情景(MFVs),用于评估与每个道德基础相关的具体情景中的道德认知。我们将这些不同抽象层次的道德评估之间的价值观冲突定义为虚伪。我们发现,与人类相比,这两个模型在各自的工具中都表现出合理的内部一致性,但当我们将MFQ中存在的抽象价值观与MFV对具体道德违规行为的评估进行比较时,它们表现出矛盾和虚伪的行为。

🔬 方法详解

问题定义:论文旨在解决如何评估大型语言模型(LLMs)在道德判断上是否具有一致性的问题,即是否存在“道德虚伪”现象。现有方法缺乏有效手段来衡量LLMs在不同抽象程度(抽象原则 vs. 具体情境)下的道德判断一致性。

核心思路:论文的核心思路是借鉴心理学中的道德基础理论(Moral Foundations Theory),通过对比LLMs在回答道德基础问卷(MFQ,评估抽象道德价值观)和道德基础情景(MFVs,评估具体情境下的道德判断)时的表现,来判断其是否存在道德上的不一致性。如果LLM在MFQ中认同某种道德原则,但在MFVs中却对违反该原则的行为表示认可,则认为其存在道德虚伪。

技术框架:研究主要分为两个阶段:1) 使用道德基础问卷(MFQ)评估LLMs的抽象道德价值观。MFQ包含一系列陈述,要求LLMs评估这些陈述在道德上的相关性。2) 使用道德基础情景(MFVs)评估LLMs在具体情境下的道德判断。MFVs描述了一系列违反或符合特定道德原则的情境,要求LLMs评估这些情境的道德可接受程度。最后,对比LLMs在MFQ和MFVs中的回答,分析其是否存在矛盾。

关键创新:该研究的关键创新在于将心理学中的道德基础理论引入到LLM的道德评估中,并提出了一种基于抽象与具象判断对比的道德虚伪性评估方法。这种方法能够更全面地评估LLMs的道德认知能力,并揭示其潜在的道德风险。与以往主要关注LLMs在生成文本中是否存在偏见或歧视的研究不同,该研究关注的是LLMs内在道德判断的一致性。

关键设计:研究使用了两种基于道德基础理论的工具:MFQ和MFVs。MFQ包含30个问题,评估五个道德基础(关怀、公平、忠诚、权威、纯洁)。MFVs包含一系列描述具体情境的短文,每个情境都与一个或多个道德基础相关。研究人员设计了提示语(prompts),引导LLMs回答MFQ和MFVs中的问题。对于MFQ,提示语要求LLMs评估每个陈述在道德上的相关性,使用1-5的Likert量表。对于MFVs,提示语要求LLMs评估每个情境的道德可接受程度,同样使用Likert量表。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,GPT-4和Claude 2.1在各自的工具(MFQ和MFVs)中表现出一定的内部一致性,但在对比抽象价值观(MFQ)和具体情境评估(MFVs)时,两者都表现出明显的矛盾和虚伪行为。这表明即使是最先进的LLMs,在道德判断方面仍然存在缺陷,需要进一步的研究和改进。

🎯 应用场景

该研究成果可应用于评估和改进大型语言模型的道德风险,例如在开发聊天机器人、内容生成系统等应用时,可以利用该方法来检测和纠正LLMs的道德虚伪行为,从而提高其可靠性和安全性。此外,该研究也为开发更符合人类价值观的人工智能系统提供了新的思路。

📄 摘要(原文)

Large language models (LLMs) have taken centre stage in debates on Artificial Intelligence. Yet there remains a gap in how to assess LLMs' conformity to important human values. In this paper, we investigate whether state-of-the-art LLMs, GPT-4 and Claude 2.1 (Gemini Pro and LLAMA 2 did not generate valid results) are moral hypocrites. We employ two research instruments based on the Moral Foundations Theory: (i) the Moral Foundations Questionnaire (MFQ), which investigates which values are considered morally relevant in abstract moral judgements; and (ii) the Moral Foundations Vignettes (MFVs), which evaluate moral cognition in concrete scenarios related to each moral foundation. We characterise conflicts in values between these different abstractions of moral evaluation as hypocrisy. We found that both models displayed reasonable consistency within each instrument compared to humans, but they displayed contradictory and hypocritical behaviour when we compared the abstract values present in the MFQ to the evaluation of concrete moral violations of the MFV.