Mapping and Influencing the Political Ideology of Large Language Models using Synthetic Personas

📄 arXiv: 2412.14843v3 📥 PDF

作者: Pietro Bernardelle, Leon Fröhling, Stefano Civelli, Riccardo Lunardi, Kevin Roitero, Gianluca Demartini

分类: cs.CL, cs.AI

发布日期: 2024-12-19 (更新: 2025-02-26)

备注: Companion Proceedings of the ACM Web Conference 2025 (WWW Companion'25)

DOI: 10.1145/3701716.3715578


💡 一句话要点

利用合成角色探究并操控大语言模型的政治倾向

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 政治偏见 角色扮演 意识形态 政治坐标测试

📋 核心要点

  1. 现有方法主要将大语言模型视为单一实体,忽略了角色扮演提示对政治倾向的影响,缺乏对LLM政治立场的细粒度控制。
  2. 本文利用合成角色扮演提示,通过政治坐标测试来分析和操控LLM的政治倾向,探索意识形态提示对模型政治立场的影响。
  3. 实验表明,LLM对不同意识形态提示的响应存在不对称性,向右翼威权主义转变更显著,暗示模型训练中可能存在固有偏见。

📝 摘要(中文)

本文研究了基于角色扮演提示的大语言模型(LLMs)的政治倾向。现有研究主要将LLMs视为具有固定观点的单一实体进行政治偏见分析,而忽略了角色扮演提示的影响。本文利用PersonaHub的角色描述集合,通过政治坐标测试(PCT)来绘制基于角色扮演提示的LLMs的政治分布。进一步,研究探讨了是否可以通过显式的意识形态提示(右翼威权主义和左翼自由主义)来操纵这些初始分布。实验表明,合成角色主要聚集在左翼自由主义象限,模型对显式意识形态描述的响应程度各不相同。所有模型都表现出向右翼威权主义立场的显著转变,但向左翼自由主义立场的转变则较为有限,这表明对意识形态操纵的不对称响应可能反映了模型训练中固有的偏见。

🔬 方法详解

问题定义:现有的大语言模型政治偏见分析主要关注模型作为单一实体的固定观点,忽略了角色扮演提示对模型政治倾向的影响。因此,如何量化和操纵基于角色扮演提示的LLM的政治立场,以及不同意识形态提示的影响差异,是本文要解决的问题。现有方法缺乏对LLM政治立场的细粒度控制,无法有效探究和缓解潜在的偏见。

核心思路:本文的核心思路是利用合成角色扮演提示,通过政治坐标测试(PCT)来量化LLM的政治立场。然后,通过显式的意识形态提示(右翼威权主义和左翼自由主义)来操纵模型的政治立场,并分析模型对不同意识形态提示的响应差异。这种方法可以更细粒度地控制和分析LLM的政治倾向,并揭示模型训练中可能存在的偏见。

技术框架:本文的技术框架主要包括以下几个阶段:1) 使用PersonaHub的角色描述集合,为LLM构建合成角色;2) 使用政治坐标测试(PCT)来评估基于角色扮演提示的LLM的初始政治立场;3) 通过显式的意识形态提示(右翼威权主义和左翼自由主义)来操纵LLM的政治立场;4) 再次使用PCT评估操纵后的政治立场,并分析模型对不同意识形态提示的响应差异。

关键创新:本文的关键创新在于:1) 首次系统性地研究了角色扮演提示对LLM政治倾向的影响;2) 提出了一种基于合成角色和意识形态提示的LLM政治立场操纵方法;3) 揭示了LLM对不同意识形态提示的响应存在不对称性,暗示模型训练中可能存在固有偏见。

关键设计:本文的关键设计包括:1) 使用PersonaHub作为角色描述来源,保证了角色多样性和可控性;2) 使用政治坐标测试(PCT)作为政治立场评估工具,保证了评估的客观性和可比性;3) 设计了显式的意识形态提示,包括右翼威权主义和左翼自由主义,用于操纵LLM的政治立场;4) 通过对比操纵前后LLM的政治立场,分析模型对不同意识形态提示的响应差异。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,合成角色主要聚集在左翼自由主义象限。所有模型都表现出向右翼威权主义立场的显著转变,但向左翼自由主义立场的转变则较为有限。这表明LLM对意识形态操纵的响应存在不对称性,可能反映了模型训练中固有的偏见。例如,某些模型在右翼威权主义方向的偏移程度远大于左翼自由主义方向。

🎯 应用场景

该研究成果可应用于评估和缓解大语言模型中的政治偏见,提高模型的公平性和可靠性。通过角色扮演提示和意识形态操纵,可以更好地理解和控制模型的行为,避免模型产生有害或不当的输出。此外,该研究还可以应用于政治观点分析、舆情监控等领域,为社会科学研究提供新的工具和方法。

📄 摘要(原文)

The analysis of political biases in large language models (LLMs) has primarily examined these systems as single entities with fixed viewpoints. While various methods exist for measuring such biases, the impact of persona-based prompting on LLMs' political orientation remains unexplored. In this work we leverage PersonaHub, a collection of synthetic persona descriptions, to map the political distribution of persona-based prompted LLMs using the Political Compass Test (PCT). We then examine whether these initial compass distributions can be manipulated through explicit ideological prompting towards diametrically opposed political orientations: right-authoritarian and left-libertarian. Our experiments reveal that synthetic personas predominantly cluster in the left-libertarian quadrant, with models demonstrating varying degrees of responsiveness when prompted with explicit ideological descriptors. While all models demonstrate significant shifts towards right-authoritarian positions, they exhibit more limited shifts towards left-libertarian positions, suggesting an asymmetric response to ideological manipulation that may reflect inherent biases in model training.