Exploring Persona-dependent LLM Alignment for the Moral Machine Experiment

📄 arXiv: 2504.10886v1 📥 PDF

作者: Jiseon Kim, Jea Kwon, Luiz Felipe Vecchietti, Alice Oh, Meeyoung Cha

分类: cs.CY, cs.AI, cs.CL

发布日期: 2025-04-15

备注: Accepted to ICLR 2025 Workshop - BiAlign (Bidirectional Human-AI Alignment)


💡 一句话要点

探索人格化LLM在道德机器实验中的对齐问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 道德机器实验 人格化建模 伦理对齐 道德决策

📋 核心要点

  1. 现有LLM在道德决策方面与人类价值观对齐不足,尤其是在不同社会背景下,缺乏深入研究。
  2. 该研究通过赋予LLM不同人格,模拟其在道德困境中的决策,从而探索人格对LLM道德判断的影响。
  3. 实验表明,LLM的道德决策受人格影响显著,且政治倾向会主导决策方向,提示潜在的伦理风险。

📝 摘要(中文)

大型语言模型(LLM)在现实世界应用中扮演代理角色,引发了关于其行为方式的关键问题,尤其是在面临道德困境时,它们的决策如何与人类判断对齐?本研究考察了在道德机器实验的各种情境下,LLM驱动的决策与人类判断之间的对齐情况,包括反映不同社会人口统计学特征的人格。研究发现,LLM的道德决策因人格而异,在关键任务中,道德决策的变化幅度大于人类。数据还表明了一种有趣的党派分类现象,即政治人格主导了LLM决策的方向和程度。我们讨论了在涉及道德决策的应用中部署这些模型所涉及的伦理影响和风险。

🔬 方法详解

问题定义:论文旨在研究在道德困境中,大型语言模型(LLM)的决策与人类判断的对齐程度,并考察不同人格对LLM道德决策的影响。现有方法缺乏对LLM在不同社会人口统计学背景下道德决策差异的深入分析,以及对潜在伦理风险的评估。

核心思路:论文的核心思路是通过赋予LLM不同的人格(persona),模拟其在道德机器实验中的决策过程,从而研究人格对LLM道德判断的影响。这种方法能够揭示LLM在不同情境下的道德偏好,并评估其与人类价值观的对齐程度。

技术框架:该研究采用道德机器实验框架,该框架提供了一系列道德困境场景。研究人员为LLM设定不同的人格,包括社会人口统计学特征(如年龄、性别、职业)和政治倾向。然后,LLM在这些场景中做出决策,研究人员分析LLM的决策与人类判断之间的差异。整体流程包括:1. 定义道德困境场景;2. 为LLM设定不同人格;3. LLM在场景中进行决策;4. 分析LLM决策与人类判断的差异。

关键创新:该研究的关键创新在于探索了人格对LLM道德决策的影响。以往的研究主要关注LLM的通用道德能力,而忽略了人格因素。该研究表明,LLM的道德决策受人格影响显著,这提示我们在部署LLM时需要考虑人格因素,以避免潜在的伦理风险。

关键设计:研究中,人格的设定通过prompt工程实现,即在输入LLM的问题中加入人格描述。例如,可以描述LLM是一个“年长的保守派医生”。道德困境场景来自经典的道德机器实验,涉及不同人群的生死抉择。研究人员分析LLM在不同人格下的决策偏好,并与人类的决策进行对比。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,LLM的道德决策受人格影响显著,尤其是在政治倾向方面。例如,具有保守派人格的LLM更倾向于保护特定人群,而具有自由派人格的LLM则更倾向于平等对待所有人。此外,LLM在关键任务中的道德决策变化幅度大于人类,这提示LLM可能存在过度依赖人格设定的问题。研究还发现了一种党派分类现象,即政治人格主导了LLM决策的方向和程度。

🎯 应用场景

该研究成果可应用于开发更符合伦理规范的人工智能系统,尤其是在自动驾驶、医疗决策等涉及道德判断的领域。通过了解人格对LLM决策的影响,可以设计出更公平、更可靠的AI系统,减少潜在的偏见和歧视。此外,该研究也为评估和监管AI系统的伦理风险提供了新的思路。

📄 摘要(原文)

Deploying large language models (LLMs) with agency in real-world applications raises critical questions about how these models will behave. In particular, how will their decisions align with humans when faced with moral dilemmas? This study examines the alignment between LLM-driven decisions and human judgment in various contexts of the moral machine experiment, including personas reflecting different sociodemographics. We find that the moral decisions of LLMs vary substantially by persona, showing greater shifts in moral decisions for critical tasks than humans. Our data also indicate an interesting partisan sorting phenomenon, where political persona predominates the direction and degree of LLM decisions. We discuss the ethical implications and risks associated with deploying these models in applications that involve moral decisions.