The Pluralistic Moral Gap: Understanding Judgment and Value Differences between Humans and Large Language Models

📄 arXiv: 2507.17216v1 📥 PDF

作者: Giuseppe Russo, Debora Nozza, Paul Röttger, Dirk Hovy

分类: cs.CL, cs.AI

发布日期: 2025-07-23

备注: 13 pages, 4 figures


💡 一句话要点

提出道德困境数据集与动态道德剖析方法,提升LLM道德判断与人类价值对齐程度。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 道德判断 价值对齐 道德困境数据集 动态道德剖析

📋 核心要点

  1. 现有方法在处理道德困境时,大型语言模型与人类判断存在显著差异,尤其是在人类意见不一致时。
  2. 论文提出动态道德剖析(DMP)方法,通过狄利克雷采样,使模型输出受人类价值分布影响,从而提升对齐度。
  3. 实验表明,DMP方法显著提高了LLM与人类道德判断的对齐度(提升64.3%),并丰富了模型表达的道德价值多样性。

📝 摘要(中文)

人们越来越依赖大型语言模型(LLMs)来获取道德建议,这可能会影响人类的决策。然而,LLMs与人类道德判断的契合程度知之甚少。为了解决这个问题,我们引入了道德困境数据集,这是一个包含1618个真实世界道德困境的基准数据集,每个困境都配有一系列人类道德判断,包括二元评估和自由文本理由。我们将此问题视为一个多元分布对齐任务,比较LLM和人类在不同困境中的判断分布。我们发现,模型仅在高共识下才能重现人类判断;当人类意见分歧增加时,对齐效果会急剧下降。同时,通过使用从理由中提取的3783个价值表达构建的60个价值分类,我们表明LLMs依赖于比人类更窄的道德价值集合。这些发现揭示了一个多元道德差距:在表达的价值的分布和多样性上存在不匹配。为了弥合这一差距,我们引入了动态道德剖析(DMP),这是一种基于狄利克雷分布的采样方法,该方法根据人类衍生的价值剖析来调节模型输出。DMP将对齐度提高了64.3%,并增强了价值多样性,为LLMs提供更具多元化和更符合人类道德指导的方向迈出了一步。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLMs)在道德判断上与人类判断不一致的问题,尤其是在面对具有争议性的道德困境时。现有方法未能充分捕捉人类道德判断的多元性和细微差别,导致LLMs在道德建议方面可能产生误导或不符合人类价值观的结果。现有方法的痛点在于无法有效处理人类道德判断中的不确定性和价值偏好。

核心思路:论文的核心思路是构建一个包含人类道德判断分布的数据集,并利用该数据集来训练LLMs,使其能够更好地理解和模拟人类的道德判断过程。通过引入动态道德剖析(DMP)方法,论文旨在使LLMs能够根据人类的价值偏好进行调整,从而缩小LLMs与人类在道德判断上的差距。DMP方法的核心在于利用狄利克雷分布对人类的价值偏好进行建模,并将其作为LLM生成道德判断的条件。

技术框架:论文的技术框架主要包括以下几个部分:1) 构建道德困境数据集,包含真实世界的道德困境和人类的道德判断分布;2) 提取人类道德判断中的价值表达,并构建价值分类体系;3) 提出动态道德剖析(DMP)方法,利用狄利克雷分布对人类价值偏好进行建模;4) 将DMP方法应用于LLMs,并评估其在道德判断任务上的性能。整体流程是先收集数据,然后分析数据,最后利用分析结果改进LLM的道德判断能力。

关键创新:论文最重要的技术创新点在于动态道德剖析(DMP)方法。DMP方法与现有方法的本质区别在于,它不是简单地让LLM模仿人类的道德判断,而是让LLM理解人类道德判断背后的价值偏好,并根据这些价值偏好进行调整。这种方法能够更好地捕捉人类道德判断的多元性和细微差别,从而使LLM的道德判断更加符合人类的价值观。

关键设计:DMP方法的关键设计在于使用狄利克雷分布对人类的价值偏好进行建模。狄利克雷分布可以用来表示一个概率分布的概率分布,因此可以很好地捕捉人类价值偏好的不确定性和多样性。具体来说,论文首先从人类的道德判断中提取价值表达,然后将这些价值表达映射到预定义的价值分类体系中。接下来,论文使用狄利克雷分布对每个道德困境的价值偏好进行建模,并将该分布作为LLM生成道德判断的条件。通过这种方式,LLM可以根据人类的价值偏好生成更加符合人类价值观的道德判断。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,动态道德剖析(DMP)方法显著提高了LLM与人类道德判断的对齐度,提升幅度高达64.3%。此外,DMP方法还增强了LLM表达的道德价值多样性,使其能够更好地捕捉人类道德判断的多元性和细微差别。这些结果表明,DMP方法是一种有效的提升LLM道德判断能力的方法。

🎯 应用场景

该研究成果可应用于开发更安全、更符合伦理道德的人工智能系统,尤其是在涉及道德决策的领域,如自动驾驶、医疗诊断和法律咨询。通过使LLM更好地理解和模拟人类的道德判断,可以减少AI系统在道德问题上犯错的风险,并提高其在实际应用中的可靠性和可信度。未来,该研究可以扩展到更广泛的伦理问题,并为构建更负责任的人工智能提供指导。

📄 摘要(原文)

People increasingly rely on Large Language Models (LLMs) for moral advice, which may influence humans' decisions. Yet, little is known about how closely LLMs align with human moral judgments. To address this, we introduce the Moral Dilemma Dataset, a benchmark of 1,618 real-world moral dilemmas paired with a distribution of human moral judgments consisting of a binary evaluation and a free-text rationale. We treat this problem as a pluralistic distributional alignment task, comparing the distributions of LLM and human judgments across dilemmas. We find that models reproduce human judgments only under high consensus; alignment deteriorates sharply when human disagreement increases. In parallel, using a 60-value taxonomy built from 3,783 value expressions extracted from rationales, we show that LLMs rely on a narrower set of moral values than humans. These findings reveal a pluralistic moral gap: a mismatch in both the distribution and diversity of values expressed. To close this gap, we introduce Dynamic Moral Profiling (DMP), a Dirichlet-based sampling method that conditions model outputs on human-derived value profiles. DMP improves alignment by 64.3% and enhances value diversity, offering a step toward more pluralistic and human-aligned moral guidance from LLMs.