Polarization by Default: Auditing Recommendation Bias in LLM-Based Content Curation

📄 arXiv: 2604.15937v1 📥 PDF

作者: Nicolò Pagan, Christopher Barrie, Chris Andrew Bail, Petter Törnberg

分类: cs.SI, cs.AI, cs.CL, cs.CY, cs.MA

发布日期: 2026-04-17


💡 一句话要点

研究揭示LLM内容推荐中的极化偏见,并分析不同提示策略和平台的影响

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 内容推荐 偏见分析 极化 提示工程

📋 核心要点

  1. 现有研究对LLM在内容推荐中的偏见理解不足,缺乏跨平台和提示策略的系统性分析。
  2. 该研究通过模拟实验,分析不同LLM提供商在不同社交平台和提示策略下的内容选择偏见。
  3. 实验发现极化现象普遍存在,毒性处理和情感偏见因提示策略和LLM提供商而异。

📝 摘要(中文)

大型语言模型(LLM)越来越多地被用于管理和排序人类创建的内容,但它们在这些任务中的偏见本质和结构仍然知之甚少:哪些偏见在不同提供商和平台之间是稳健的,哪些可以通过提示设计来缓解。我们进行了一项受控的模拟研究,利用来自Twitter/X、Bluesky和Reddit的真实社交媒体数据集,以及六种提示策略(通用、流行、吸引人、信息丰富、有争议、中性),来绘制三大LLM提供商(OpenAI、Anthropic、Google)的内容选择偏见。通过540,000次模拟的top-10选择,从54个实验条件下的100个帖子池中,我们发现偏见在结构性和提示敏感性方面存在显著差异。极化在所有配置中都被放大,毒性处理在以参与度和信息为中心的提示之间显示出强烈的反转,情感偏见主要为负面。提供商比较揭示了不同的权衡:GPT-4o Mini在各种提示中表现出最一致的行为;Claude和Gemini在毒性处理方面表现出高度的适应性;Gemini表现出最强烈的负面情感偏好。在Twitter/X上,作者人口统计信息可以从个人资料中推断出来,政治倾向偏见是最清晰的人口统计信号:尽管右倾作者在该数据集中占多数,但左倾作者被系统性地过度代表,并且这种模式在很大程度上持续存在于各种提示中。

🔬 方法详解

问题定义:论文旨在研究大型语言模型(LLM)在内容推荐任务中存在的偏见,特别是极化、毒性和情感方面的偏见。现有方法缺乏对这些偏见在不同LLM提供商、社交平台和提示策略下的系统性分析,难以理解这些偏见的本质和结构,以及如何通过提示设计来缓解这些偏见。

核心思路:论文的核心思路是通过受控的模拟实验,模拟LLM在不同社交平台(Twitter/X, Bluesky, Reddit)上进行内容推荐的过程,并使用不同的提示策略(general, popular, engaging, informative, controversial, neutral)来引导LLM的选择。通过分析LLM在不同条件下的选择结果,揭示其存在的偏见模式。

技术框架:该研究的技术框架主要包括以下几个步骤:1) 数据收集:从Twitter/X, Bluesky, Reddit等社交平台收集真实的用户帖子数据。2) 提示设计:设计六种不同的提示策略,以引导LLM进行内容选择。3) 模拟实验:使用不同的LLM提供商(OpenAI, Anthropic, Google)和提示策略,对收集到的帖子数据进行模拟的top-10内容选择。4) 偏见分析:分析LLM在不同条件下的选择结果,评估其存在的极化、毒性和情感方面的偏见。5) 人口统计分析:在Twitter/X数据集上,根据作者的个人资料推断其政治倾向,分析LLM在内容选择中是否存在政治倾向偏见。

关键创新:该研究的关键创新在于:1) 系统性地分析了LLM在内容推荐任务中存在的多种偏见,包括极化、毒性和情感偏见。2) 首次比较了不同LLM提供商在内容推荐任务中的偏见表现,揭示了它们之间的差异和权衡。3) 探讨了提示策略对LLM偏见的影响,为缓解LLM偏见提供了新的思路。4) 利用真实社交媒体数据进行模拟实验,提高了研究的真实性和可靠性。

关键设计:实验的关键设计包括:1) 使用真实社交媒体数据,保证了实验的真实性。2) 设计了六种不同的提示策略,覆盖了不同的内容选择目标。3) 进行了大量的模拟实验(540,000次top-10选择),保证了结果的统计显著性。4) 在Twitter/X数据集上,根据作者的个人资料推断其政治倾向,并分析LLM在内容选择中是否存在政治倾向偏见。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,LLM在内容推荐中普遍存在极化偏见,且不同LLM提供商和提示策略对毒性处理和情感偏见的影响各不相同。例如,GPT-4o Mini在不同提示下表现最稳定,Claude和Gemini在毒性处理上更具适应性,Gemini则表现出更强的负面情感偏好。在Twitter/X上,左倾作者被系统性地过度代表,即使右倾作者占多数。

🎯 应用场景

该研究成果可应用于改进LLM驱动的内容推荐系统,减少极化、毒性和情感偏见,提升用户体验。通过优化提示策略,可以引导LLM选择更客观、中立和有益的内容。该研究还有助于提高公众对LLM偏见的认识,促进负责任的AI开发和部署。

📄 摘要(原文)

Large Language Models (LLMs) are increasingly deployed to curate and rank human-created content, yet the nature and structure of their biases in these tasks remains poorly understood: which biases are robust across providers and platforms, and which can be mitigated through prompt design. We present a controlled simulation study mapping content selection biases across three major LLM providers (OpenAI, Anthropic, Google) on real social media datasets from Twitter/X, Bluesky, and Reddit, using six prompting strategies (\textit{general}, \textit{popular}, \textit{engaging}, \textit{informative}, \textit{controversial}, \textit{neutral}). Through 540,000 simulated top-10 selections from pools of 100 posts across 54 experimental conditions, we find that biases differ substantially in how structural and how prompt-sensitive they are. Polarization is amplified across all configurations, toxicity handling shows a strong inversion between engagement- and information-focused prompts, and sentiment biases are predominantly negative. Provider comparisons reveal distinct trade-offs: GPT-4o Mini shows the most consistent behavior across prompts; Claude and Gemini exhibit high adaptivity in toxicity handling; Gemini shows the strongest negative sentiment preference. On Twitter/X, where author demographics can be inferred from profile bios, political leaning bias is the clearest demographic signal: left-leaning authors are systematically over-represented despite right-leaning authors forming the pool plurality in the dataset, and this pattern largely persists across prompts.