Analysing LLM Persona Generation and Fairness Interpretation in Polarised Geopolitical Contexts

📄 arXiv: 2603.22837v1 📥 PDF

作者: Maida Aizaz, Quang Minh Nguyen

分类: cs.CL

发布日期: 2026-03-24

备注: EACL 2026 Student Research Workshop


💡 一句话要点

分析LLM在极化地缘政治背景下的人格生成与公平性解释

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 人格生成 地缘政治 公平性 偏见分析

📋 核心要点

  1. 现有方法在利用LLM进行社会模拟和人格生成时,未能充分理解其在地缘政治身份表示上的偏见。
  2. 该论文通过分析LLM在不同语境下生成巴勒斯坦和以色列人格的属性分布,揭示了模型对地缘政治的偏见。
  3. 实验结果表明,即使指示模型避免有害假设,潜在的社会经济差异仍然存在,公平性概念并未直接转化为代表性结果。

📝 摘要(中文)

大型语言模型(LLM)越来越多地被用于社会模拟和人格生成,因此理解它们如何表示地缘政治身份至关重要。本文分析了五个流行的LLM在640种实验条件下,针对巴勒斯坦和以色列身份生成的人格,实验条件包括不同的语境(战争与非战争)和分配的角色。我们观察到生成属性的显著分布模式:在战争语境中,巴勒斯坦人的形象经常与较低的社会经济地位和以生存为导向的角色相关联,而以色列人的形象则主要保持中产阶级地位和专业的职业属性。当被明确指示避免有害假设时,模型表现出不同的分布变化,例如,非二元性别推断的显著增加或趋向于通用职业角色(例如,“学生”),但潜在的社会经济差异通常仍然存在。此外,对推理轨迹的分析揭示了模型推理和生成之间有趣的动态关系:虽然理由始终提及与公平相关的概念,但最终生成的人格遵循上述不同的分布变化。这些发现展示了模型如何解释地缘政治语境,同时也表明它们以不同的方式处理公平性并进行调整;公平性概念与代表性结果之间没有一致的、直接的转化。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)在生成具有特定地缘政治身份的人格时,可能存在的偏见和不公平性问题。现有方法缺乏对LLM如何在地缘政治背景下理解和表示不同身份的深入分析,并且未能有效解决模型中固有的偏见,导致生成的人格带有刻板印象和不公平的社会经济属性。

核心思路:论文的核心思路是通过系统性地分析LLM在不同语境(战争与非战争)和角色分配下生成的人格属性分布,来揭示模型对特定地缘政治身份的偏见。通过分析模型的推理轨迹,探究模型如何处理公平性概念以及这些概念如何影响最终生成的人格。

技术框架:该研究的技术框架主要包括以下几个阶段: 1. 实验设计:设计了640种实验条件,涵盖不同的语境(战争与非战争)和角色分配,针对巴勒斯坦和以色列身份生成人格。 2. LLM选择:选择了五个流行的LLM进行实验。 3. 人格生成:使用不同的prompt提示LLM生成人格,包括明确指示避免有害假设的prompt。 4. 属性分析:分析生成人格的属性分布,例如社会经济地位、职业、性别等。 5. 推理轨迹分析:分析模型的推理轨迹,探究模型如何处理公平性概念。 6. 统计分析:使用统计方法分析实验结果,揭示模型对不同地缘政治身份的偏见。

关键创新:该研究的关键创新在于: 1. 系统性地分析了LLM在地缘政治背景下的人格生成偏见,揭示了模型对特定身份的刻板印象和不公平表示。 2. 通过分析推理轨迹,探究了模型如何处理公平性概念以及这些概念如何影响最终生成的人格。 3. 揭示了即使指示模型避免有害假设,潜在的社会经济差异仍然存在,公平性概念并未直接转化为代表性结果。

关键设计:实验中,prompt的设计至关重要,包括控制语境(战争与非战争)、角色分配以及是否包含避免有害假设的指令。对生成人格的属性进行细致的分类和量化,例如社会经济地位分为低、中、高等,职业分为专业、通用等。推理轨迹的分析需要仔细解读模型生成的文本,识别与公平性相关的概念,并分析这些概念如何影响最终生成的人格。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在战争语境中,LLM生成的巴勒斯坦人形象更倾向于与较低的社会经济地位和生存导向的角色相关联,而以色列人形象则主要保持中产阶级地位和专业职业属性。即使在指示模型避免有害假设的情况下,虽然模型会表现出一些分布变化(如非二元性别推断增加),但潜在的社会经济差异仍然存在。推理轨迹分析显示,模型在推理过程中会提及公平性概念,但这些概念并未直接转化为公平的代表性结果。

🎯 应用场景

该研究的潜在应用领域包括社会模拟、政治分析、文化理解和人工智能伦理。通过了解LLM在地缘政治背景下的人格生成偏见,可以帮助开发更公平、更客观的AI系统,避免加剧社会不平等和偏见。未来的研究可以探索如何利用这些发现来改进LLM的训练数据和算法,从而减少偏见并提高公平性。

📄 摘要(原文)

Large language models (LLMs) are increasingly utilised for social simulation and persona generation, necessitating an understanding of how they represent geopolitical identities. In this paper, we analyse personas generated for Palestinian and Israeli identities by five popular LLMs across 640 experimental conditions, varying context (war vs non-war) and assigned roles. We observe significant distributional patterns in the generated attributes: Palestinian profiles in war contexts are frequently associated with lower socioeconomic status and survival-oriented roles, whereas Israeli profiles predominantly retain middle-class status and specialised professional attributes. When prompted with explicit instructions to avoid harmful assumptions, models exhibit diverse distributional changes, e.g., marked increases in non-binary gender inferences or a convergence toward generic occupational roles (e.g., "student"), while the underlying socioeconomic distinctions often remain. Furthermore, analysis of reasoning traces reveals an interesting dynamics between model reasoning and generation: while rationales consistently mention fairness-related concepts, the final generated personas follow the aforementioned diverse distributional changes. These findings illustrate a picture of how models interpret geopolitical contexts, while suggesting that they process fairness and adjust in varied ways; there is no consistent, direct translation of fairness concepts into representative outcomes.