Mapping Geopolitical Bias in 11 Large Language Models: A Bilingual, Dual-Framing Analysis of U.S.-China Tensions

📄 arXiv: 2503.23688v1 📥 PDF

作者: William Guey, Pierrick Bougault, Vitor D. de Moura, Wei Zhang, Jose O. Gomes

分类: cs.CL, cs.HC

发布日期: 2025-03-31

备注: Preliminary version,20 pages, 10 figures, 1 table


💡 一句话要点

双语双框架分析揭示11个大型语言模型在美国-中国议题上的地缘政治偏见。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 地缘政治偏见 双语分析 提示工程 意识形态倾向

📋 核心要点

  1. 现有大型语言模型在处理地缘政治议题时,可能存在难以察觉的偏见,影响信息客观性。
  2. 论文通过构建双语双框架提示,系统性地探测和量化了不同LLM在美国-中国议题上的意识形态倾向。
  3. 实验发现模型偏见与其地理来源相关,且语言和提示框架显著影响模型响应,揭示了模型行为的脆弱性。

📝 摘要(中文)

本研究系统地分析了11个主流大型语言模型(LLM)在美国-中国关系七个关键议题上的地缘政治偏见。采用双语(英语和中文)和双框架(肯定和反向)方法,生成了19712个提示,旨在检测模型输出中的意识形态倾向。对响应进行定量评估,范围从-2(强烈亲华)到+2(强烈亲美),并根据立场、中立性和拒绝率进行分类。研究结果表明,LLM的地理来源与其意识形态倾向之间存在显著且一致的关联;美国模型主要倾向于亲美立场,而中国模型则表现出明显的亲华偏见。值得注意的是,语言和提示框架对模型响应产生重大影响,一些LLM根据提示极性或语言环境表现出立场逆转。此外,我们引入了综合指标来评估跨语言和框架条件下响应的一致性,识别模型行为的可变性和脆弱性。这些结果提供了实践见解,可以指导组织和个人选择最符合其运营优先级和地缘政治考量的LLM,强调了在政治敏感应用中仔细评估模型的重要性。此外,该研究突出了可以策略性地触发模型不同响应的特定提示结构和语言变体,揭示了有效导航和影响LLM输出的方法。

🔬 方法详解

问题定义:本研究旨在解决大型语言模型(LLM)在地缘政治议题上存在的偏见问题,特别是美国与中国关系这一敏感领域。现有方法难以系统性地量化和评估这些偏见,并且缺乏对语言和提示框架影响的深入分析。这种偏见可能导致信息失真,影响用户对相关议题的理解和判断。

核心思路:论文的核心思路是利用双语(英语和中文)和双框架(肯定和反向)的提示工程方法,系统性地探测和量化LLM的意识形态倾向。通过构建大量不同极性和语言的提示,诱导LLM生成响应,并分析这些响应的立场、中立性和拒绝率,从而揭示其潜在的偏见。

技术框架:研究的技术框架主要包括以下几个阶段:1) 确定美国-中国关系的七个关键议题;2) 构建双语双框架提示,包括肯定和反向两种极性,以及英语和中文两种语言;3) 将提示输入到11个主流LLM中,获取响应;4) 对响应进行定量评估,使用-2到+2的标准化量表评估其立场(亲华或亲美);5) 分析响应的立场、中立性和拒绝率,以及跨语言和框架的一致性。

关键创新:本研究的关键创新在于:1) 提出了双语双框架的提示工程方法,能够更全面地探测LLM的偏见;2) 构建了大规模的提示数据集,覆盖了美国-中国关系的多个关键议题;3) 提出了综合指标来评估LLM响应在跨语言和框架条件下的一致性,从而识别模型行为的脆弱性。

关键设计:研究的关键设计包括:1) 提示的构建:针对每个议题,设计肯定和反向两种极性的提示,并翻译成英语和中文;2) 响应的评估:使用标准化量表对响应进行定量评估,并根据立场、中立性和拒绝率进行分类;3) 一致性评估:计算跨语言和框架条件下响应的一致性得分,评估模型行为的稳定性。

📊 实验亮点

实验结果表明,LLM的地理来源与其意识形态倾向之间存在显著相关性,美国模型更倾向于亲美立场,而中国模型则表现出亲华偏见。此外,语言和提示框架对模型响应有显著影响,部分模型在不同语言或提示极性下出现立场逆转。研究还发现,不同模型在跨语言和框架条件下的一致性存在差异,表明模型行为的脆弱性。

🎯 应用场景

该研究成果可应用于评估和选择适合特定地缘政治需求的LLM,例如,政府机构或跨国公司在信息分析和决策支持中,可根据LLM的偏见倾向选择更符合自身立场的模型。此外,该研究揭示的提示工程技巧,可用于引导LLM生成更符合期望的响应,从而提高其在特定场景下的应用效果。未来,该研究方法可扩展到其他地缘政治议题和语言,为LLM的公平性和可靠性提供更全面的评估。

📄 摘要(原文)

This study systematically analyzes geopolitical bias across 11 prominent Large Language Models (LLMs) by examining their responses to seven critical topics in U.S.-China relations. Utilizing a bilingual (English and Chinese) and dual-framing (affirmative and reverse) methodology, we generated 19,712 prompts designed to detect ideological leanings in model outputs. Responses were quantitatively assessed on a normalized scale from -2 (strongly Pro-China) to +2 (strongly Pro-U.S.) and categorized according to stance, neutrality, and refusal rates. The findings demonstrate significant and consistent ideological alignments correlated with the LLMs' geographic origins; U.S.-based models predominantly favored Pro-U.S. stances, while Chinese-origin models exhibited pronounced Pro-China biases. Notably, language and prompt framing substantially influenced model responses, with several LLMs exhibiting stance reversals based on prompt polarity or linguistic context. Additionally, we introduced comprehensive metrics to evaluate response consistency across languages and framing conditions, identifying variability and vulnerabilities in model behaviors. These results offer practical insights that can guide organizations and individuals in selecting LLMs best aligned with their operational priorities and geopolitical considerations, underscoring the importance of careful model evaluation in politically sensitive applications. Furthermore, the research highlights specific prompt structures and linguistic variations that can strategically trigger distinct responses from models, revealing methods for effectively navigating and influencing LLM outputs.