One Model, Many Morals: Uncovering Cross-Linguistic Misalignments in Computational Moral Reasoning

作者: Sualeha Farid, Jayden Lin, Zean Chen, Shivani Kumar, David Jurgens

分类: cs.CL, cs.AI

发布日期: 2025-09-25

备注: 22 pages, 11 figures, 6 tables

💡 一句话要点

揭示多语言环境下大语言模型道德推理的跨语言错位问题

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多语言模型 道德推理 跨文化对齐 零样本学习 文化错位

📋 核心要点

现有大语言模型在道德推理方面存在跨语言和文化泛化能力不足的问题，尤其是在非英语语境下。
通过将道德推理基准翻译成多种语言，论文旨在揭示语言在LLM道德决策中的调节作用和文化错位现象。
实验结果表明，LLM在不同语言中的道德判断存在显著差异，并分析了造成这些差异的潜在原因，包括预训练数据的影响。

📝 摘要（中文）

大型语言模型(LLMs)越来越多地部署在多语言和多元文化环境中，在这些环境中，道德推理对于生成符合伦理的回应至关重要。然而，LLMs主要在英语数据上进行预训练，这引发了人们对其在不同语言和文化背景下推广判断能力的担忧。本文系统地研究了语言如何调节LLMs中的道德决策。我们将两个已建立的道德推理基准翻译成五种文化和类型上不同的语言，从而实现多语言零样本评估。我们的分析揭示了LLMs在不同语言中的道德判断存在显著的不一致性，通常反映出文化错位。通过精心设计的研究问题，我们揭示了这些差异的根本驱动因素，包括LLMs所采用的推理策略。最后，通过一个案例研究，我们将预训练数据在塑造LLM道德指南针中的作用联系起来。通过这项工作，我们将我们的见解提炼成一个结构化的道德推理错误类型学，呼吁更多具有文化意识的AI。

🔬 方法详解

问题定义：论文旨在解决大型语言模型(LLMs)在多语言和多元文化环境中进行道德推理时，由于主要基于英语数据预训练而导致的跨语言泛化能力不足的问题。现有方法无法保证LLMs在不同语言和文化背景下做出一致且符合伦理的判断，这限制了它们在实际应用中的可靠性。

核心思路：论文的核心思路是通过多语言零样本评估，系统地研究语言如何调节LLMs的道德决策。通过将现有的道德推理基准翻译成多种语言，并分析LLMs在不同语言下的判断差异，从而揭示文化错位和潜在的推理策略差异。

技术框架：论文的技术框架主要包括以下几个阶段：1) 将两个已建立的道德推理基准翻译成五种文化和类型上不同的语言。2) 使用LLMs对翻译后的基准进行零样本评估，获得不同语言下的道德判断结果。3) 分析不同语言下的道德判断差异，识别文化错位和潜在的推理策略差异。4) 通过案例研究，分析预训练数据对LLM道德判断的影响。

关键创新：论文的关键创新在于：1) 系统地研究了LLMs在多语言环境下的道德推理能力，揭示了跨语言的道德判断不一致性。2) 通过多语言零样本评估，量化了文化错位对LLM道德判断的影响。3) 提出了一个结构化的道德推理错误类型学，为开发更具文化意识的AI提供了指导。

关键设计：论文的关键设计包括：1) 选择具有文化和类型差异的五种语言进行翻译，以确保研究的代表性。2) 使用零样本评估，避免了在目标语言上进行微调可能引入的偏差。3) 通过精心设计的研究问题，深入分析了造成道德判断差异的潜在原因，例如推理策略和预训练数据的影响。

📊 实验亮点

研究发现，LLM在不同语言中的道德判断存在显著的不一致性，反映出文化错位。例如，在某些语言中，LLM更倾向于功利主义的判断，而在另一些语言中则更倾向于义务论的判断。案例研究表明，预训练数据在塑造LLM的道德指南针中起着重要作用，英语预训练数据可能导致LLM在非英语语境下产生偏差。

🎯 应用场景

该研究成果可应用于开发更具文化敏感性和伦理意识的多语言AI系统，例如跨文化交流机器人、多语言内容审核工具和全球化的智能客服系统。通过理解和解决LLM在不同语言和文化背景下的道德推理错位问题，可以提高AI系统的公平性、可靠性和社会责任感，避免潜在的伦理风险。

📄 摘要（原文）

Large Language Models (LLMs) are increasingly deployed in multilingual and multicultural environments where moral reasoning is essential for generating ethically appropriate responses. Yet, the dominant pretraining of LLMs on English-language data raises critical concerns about their ability to generalize judgments across diverse linguistic and cultural contexts. In this work, we systematically investigate how language mediates moral decision-making in LLMs. We translate two established moral reasoning benchmarks into five culturally and typologically diverse languages, enabling multilingual zero-shot evaluation. Our analysis reveals significant inconsistencies in LLMs' moral judgments across languages, often reflecting cultural misalignment. Through a combination of carefully constructed research questions, we uncover the underlying drivers of these disparities, ranging from disagreements to reasoning strategies employed by LLMs. Finally, through a case study, we link the role of pretraining data in shaping an LLM's moral compass. Through this work, we distill our insights into a structured typology of moral reasoning errors that calls for more culturally-aware AI.

One Model, Many Morals: Uncovering Cross-Linguistic Misalignments in Computational Moral Reasoning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册