Do Large Language Models Encode Institutional Experience? Evidence from Cross-Linguistic Moral Reasoning Under Ambiguity
作者: Nattavudh Powdthavee
分类: cs.CL, cs.AI
发布日期: 2026-05-29
备注: 44 pages
💡 一句话要点
研究表明大型语言模型在跨语言道德推理中体现了制度经验的痕迹
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 道德推理 跨语言研究 制度经验 文化偏见
📋 核心要点
- 大型语言模型在不同语言间道德推理存在差异,但其根本原因尚不明确,需要进一步探索。
- 该研究假设语言编码了制度环境信息,LLM通过训练学习到特定制度下的道德先验知识。
- 实验表明,在制度模糊情境下,跨语言道德差异与真实制度差异相关,明确的制度提示会减弱这种差异。
📝 摘要(中文)
大型语言模型(LLM)在不同语言中表现出道德推理的系统性差异,但这种差异的来源尚不清楚。本文检验了一个假设,即语言编码了其所使用的制度环境的各个方面,从而使LLM可以通过训练继承特定于制度的道德先验。通过对跨越广泛制度质量梯度的九种语言、六个前沿LLM和两项预先注册的研究,我们研究了道德困境,其可接受性取决于制度的运作。在研究1中,明确的制度框架产生了统一的无效结果:跨语言的道德分歧并未在制度相关的场景中增加,也未跟踪语言社区之间的制度差异。在研究2中,我们引入了制度上模棱两可的场景,其中制度风险存在但未明确说明。在这些条件下,相对于制度惰性控制,跨语言的道德分歧有所增加,并且(有一个理论上信息丰富的例外)与语言社区之间的真实世界制度差异相关。明确的框架再次减弱了这些影响。这些发现表明,制度经验可能会在语言中留下可检测的痕迹,从而影响LLM的道德推理,同时也表明明确的制度线索可以抑制这些差异的表达。
🔬 方法详解
问题定义:论文旨在探究大型语言模型(LLM)在跨语言道德推理中表现出的差异是否源于语言中编码的制度经验。现有方法未能解释这种跨语言差异的来源,也缺乏对制度环境如何影响LLM道德推理的深入理解。现有研究通常假设LLM的道德推理是语言无关的,忽略了不同语言背后制度环境的潜在影响。
核心思路:论文的核心思路是检验语言是否编码了制度环境的信息,从而使LLM能够通过训练学习到特定制度下的道德先验。通过设计制度相关和制度无关的道德困境,并分析LLM在不同语言下的推理结果,来推断LLM是否受到了制度经验的影响。核心假设是,如果语言编码了制度信息,那么在制度相关的场景下,不同语言的LLM会表现出更大的道德分歧,并且这种分歧与真实世界的制度差异相关。
技术框架:研究采用了实验方法,包括两个主要研究。研究1侧重于明确的制度框架,通过在道德困境中明确提及制度因素,来观察LLM的道德推理是否受到影响。研究2则引入了制度上模棱两可的场景,在这些场景中,制度风险存在但未明确说明,以此来模拟真实世界中制度影响的隐蔽性。研究使用了九种语言和六个前沿LLM,并对研究进行了预先注册,以确保研究的严谨性和可重复性。
关键创新:该研究的关键创新在于提出了“语言编码制度经验”的假设,并设计了实验来验证这一假设。与以往研究不同,该研究关注的是语言本身所携带的制度信息,以及这种信息如何影响LLM的道德推理。通过对比明确制度框架和模糊制度框架下的LLM推理结果,揭示了制度经验对LLM道德推理的潜在影响。
关键设计:研究的关键设计包括:1) 选择跨越广泛制度质量梯度的九种语言,以确保研究结果的普遍性;2) 设计制度相关和制度无关的道德困境,以区分制度经验的影响;3) 使用明确制度框架和模糊制度框架,以探索制度信息呈现方式对LLM推理的影响;4) 采用预先注册的研究方法,以提高研究的透明度和可信度。
📊 实验亮点
研究发现,在制度模糊情境下,LLM的跨语言道德分歧增加,并与真实世界制度差异相关。明确的制度框架会减弱这种分歧。这些结果表明,制度经验可能在语言中留下痕迹,影响LLM的道德推理。
🎯 应用场景
该研究成果可应用于提升大型语言模型在跨文化交流和决策中的表现,尤其是在涉及道德伦理判断的场景中。理解语言模型如何编码制度经验,有助于开发更公平、更符合特定文化背景的AI系统。此外,该研究也为评估和减轻AI系统中的文化偏见提供了新的视角。
📄 摘要(原文)
Large language models (LLMs) exhibit systematic differences in moral reasoning across languages, yet the source of this variation remains unclear. We test the hypothesis that languages encode aspects of the institutional environments in which they are spoken, allowing LLMs to inherit institution-specific moral priors through training. Across nine languages spanning a broad gradient of institutional quality, six frontier LLMs, and two preregistered studies, we examine moral dilemmas whose acceptability depends on institutional functioning. In Study 1, explicit institutional framing produced uniformly null results: cross-linguistic moral divergence did not increase in institutionally contingent scenarios, nor did it track institutional differences between language communities. In Study 2, we introduced institutionally ambiguous scenarios in which institutional stakes were present but not explicitly stated. Under these conditions, cross-linguistic moral divergence increased relative to institutionally inert controls and, with one theoretically informative exception, was associated with real-world institutional differences between language communities. Explicit framing again attenuated these effects. These findings suggest that institutional experience may leave detectable traces in language that shape LLM moral reasoning, while also indicating that explicit institutional cues can suppress the expression of those differences.