Moral Lenses, Political Coordinates: Towards Ideological Positioning of Morally Conditioned LLMs

📄 arXiv: 2601.08634v1 📥 PDF

作者: Chenchen Yuan, Bolei Ma, Zheyu Zhang, Bardh Prenkaj, Frauke Kreuter, Gjergji Kasneci

分类: cs.CL, cs.AI

发布日期: 2026-01-13


💡 一句话要点

通过道德价值观引导,研究道德条件LLM的意识形态定位

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 道德价值观 政治倾向 意识形态 价值观对齐

📋 核心要点

  1. 现有LLM政治倾向评估主要依赖直接探测或人口统计学角色设定,忽略了道德直觉对政治意识形态的深层影响。
  2. 该论文将道德价值观作为可控条件,通过引导LLM认可或拒绝特定道德价值观,观察其政治倾向的变化。
  3. 实验表明,道德条件作用能显著改变LLM的政治坐标,且这种影响受角色框架和模型规模调节,具有鲁棒性。

📝 摘要(中文)

现有研究主要依赖直接探测或人口统计学角色工程来揭示大型语言模型(LLM)中的意识形态偏见。然而,在社会心理学中,政治意识形态也被理解为基本道德直觉的下游结果。本文通过将道德取向作为可控条件,研究道德价值观与政治定位之间的因果关系。我们不是简单地分配人口统计学角色,而是引导模型认可或拒绝特定的道德价值观,并使用政治罗盘测试评估由此产生的政治取向变化。通过将道德价值观视为透镜,我们观察道德条件如何积极地引导模型在经济和社会维度上的轨迹。我们的研究结果表明,这种条件作用会在模型的政治坐标中引起显著的、特定于价值观的变化。我们进一步注意到,这些影响受到角色框架和模型规模的系统性调节,并且在实例化相同道德价值观的替代评估工具中具有鲁棒性。这突出了有效的对齐需要在包括道德在内的更广泛的社会价值观的背景下锚定政治评估,从而为更具有社会基础的对齐技术铺平道路。

🔬 方法详解

问题定义:现有评估LLM政治倾向的方法,如直接探测或基于人口统计学特征的角色扮演,无法深入探究道德价值观对政治立场的潜在影响。这些方法忽略了政治意识形态是道德直觉下游结果的观点,缺乏对道德因素的有效控制和分析。

核心思路:该论文的核心思路是将道德价值观作为一种可控的条件,通过操纵LLM对特定道德原则的认可程度,来观察其政治立场的相应变化。这种方法旨在揭示道德价值观与政治倾向之间的因果关系,并为更有效地对齐LLM的价值观提供新的视角。

技术框架:该研究的技术框架主要包括以下几个步骤:1) 选择一组代表性的道德价值观;2) 设计提示语,引导LLM表达对这些道德价值观的认可或否定;3) 使用政治罗盘测试评估LLM在不同道德条件下的政治立场;4) 分析道德条件与政治坐标之间的关系,并考察角色框架和模型规模的影响。

关键创新:该论文的关键创新在于将道德价值观作为一种可控的干预手段,用于研究LLM的政治倾向。与以往研究不同,该方法不是简单地赋予LLM特定的人口统计学特征,而是通过操纵其道德认知来影响其政治立场。这种方法能够更深入地理解道德价值观在塑造LLM意识形态中的作用。

关键设计:在实验设计方面,论文使用了政治罗盘测试作为评估LLM政治立场的工具。同时,论文还考虑了角色框架(例如,让LLM扮演不同角色)和模型规模对实验结果的影响。此外,为了验证结果的鲁棒性,论文使用了多种不同的评估工具来实例化相同的道德价值观。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,通过道德条件作用,LLM的政治坐标会发生显著且特定于价值观的变化。例如,引导LLM更注重公平,会使其在经济维度上更偏向左翼。此外,研究还发现,角色框架和模型规模会系统性地调节这些影响,并且结果在不同的评估工具中具有鲁棒性。

🎯 应用场景

该研究成果可应用于开发更符合人类价值观的LLM,例如,通过道德价值观的引导,可以避免LLM产生有害或偏见的政治立场。此外,该研究还可以帮助我们更好地理解道德价值观在塑造人工智能系统行为中的作用,为人工智能伦理研究提供新的思路。

📄 摘要(原文)

While recent research has systematically documented political orientation in large language models (LLMs), existing evaluations rely primarily on direct probing or demographic persona engineering to surface ideological biases. In social psychology, however, political ideology is also understood as a downstream consequence of fundamental moral intuitions. In this work, we investigate the causal relationship between moral values and political positioning by treating moral orientation as a controllable condition. Rather than simply assigning a demographic persona, we condition models to endorse or reject specific moral values and evaluate the resulting shifts on their political orientations, using the Political Compass Test. By treating moral values as lenses, we observe how moral conditioning actively steers model trajectories across economic and social dimensions. Our findings show that such conditioning induces pronounced, value-specific shifts in models' political coordinates. We further notice that these effects are systematically modulated by role framing and model scale, and are robust across alternative assessment instruments instantiating the same moral value. This highlights that effective alignment requires anchoring political assessments within the context of broader social values including morality, paving the way for more socially grounded alignment techniques.