Polarization by Default: Auditing Recommendation Bias in LLM-Based Content Curation

作者: Nicolò Pagan, Christopher Barrie, Chris Andrew Bail, Petter Törnberg

分类: cs.SI, cs.AI, cs.CL, cs.CY, cs.MA

发布日期: 2026-04-17

💡 一句话要点

研究揭示LLM内容推荐中的极化偏见，并分析不同提示策略和平台的影响

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 内容推荐 偏见分析 极化 提示工程

📋 核心要点

现有研究对LLM在内容推荐中的偏见理解不足，缺乏跨平台和提示策略的系统性分析。
该研究通过模拟实验，分析不同LLM提供商在不同社交平台和提示策略下的内容选择偏见。
实验发现极化现象普遍存在，毒性处理和情感偏见因提示策略和LLM提供商而异。

📝 摘要（中文）

大型语言模型（LLM）越来越多地被用于管理和排序人类创建的内容，但它们在这些任务中的偏见本质和结构仍然知之甚少：哪些偏见在不同提供商和平台之间是稳健的，哪些可以通过提示设计来缓解。我们进行了一项受控的模拟研究，利用来自Twitter/X、Bluesky和Reddit的真实社交媒体数据集，以及六种提示策略（通用、流行、吸引人、信息丰富、有争议、中性），来绘制三大LLM提供商（OpenAI、Anthropic、Google）的内容选择偏见。通过540,000次模拟的top-10选择，从54个实验条件下的100个帖子池中，我们发现偏见在结构性和提示敏感性方面存在显著差异。极化在所有配置中都被放大，毒性处理在以参与度和信息为中心的提示之间显示出强烈的反转，情感偏见主要为负面。提供商比较揭示了不同的权衡：GPT-4o Mini在各种提示中表现出最一致的行为；Claude和Gemini在毒性处理方面表现出高度的适应性；Gemini表现出最强烈的负面情感偏好。在Twitter/X上，作者人口统计信息可以从个人资料中推断出来，政治倾向偏见是最清晰的人口统计信号：尽管右倾作者在该数据集中占多数，但左倾作者被系统性地过度代表，并且这种模式在很大程度上持续存在于各种提示中。

🔬 方法详解

问题定义：论文旨在研究大型语言模型（LLM）在内容推荐任务中存在的偏见，特别是极化、毒性和情感方面的偏见。现有方法缺乏对这些偏见在不同LLM提供商、社交平台和提示策略下的系统性分析，难以理解这些偏见的本质和结构，以及如何通过提示设计来缓解这些偏见。

核心思路：论文的核心思路是通过受控的模拟实验，模拟LLM在不同社交平台（Twitter/X, Bluesky, Reddit）上进行内容推荐的过程，并使用不同的提示策略（general, popular, engaging, informative, controversial, neutral）来引导LLM的选择。通过分析LLM在不同条件下的选择结果，揭示其存在的偏见模式。

技术框架：该研究的技术框架主要包括以下几个步骤：1) 数据收集：从Twitter/X, Bluesky, Reddit等社交平台收集真实的用户帖子数据。2) 提示设计：设计六种不同的提示策略，以引导LLM进行内容选择。3) 模拟实验：使用不同的LLM提供商（OpenAI, Anthropic, Google）和提示策略，对收集到的帖子数据进行模拟的top-10内容选择。4) 偏见分析：分析LLM在不同条件下的选择结果，评估其存在的极化、毒性和情感方面的偏见。5) 人口统计分析：在Twitter/X数据集上，根据作者的个人资料推断其政治倾向，分析LLM在内容选择中是否存在政治倾向偏见。

关键创新：该研究的关键创新在于：1) 系统性地分析了LLM在内容推荐任务中存在的多种偏见，包括极化、毒性和情感偏见。2) 首次比较了不同LLM提供商在内容推荐任务中的偏见表现，揭示了它们之间的差异和权衡。3) 探讨了提示策略对LLM偏见的影响，为缓解LLM偏见提供了新的思路。4) 利用真实社交媒体数据进行模拟实验，提高了研究的真实性和可靠性。

关键设计：实验的关键设计包括：1) 使用真实社交媒体数据，保证了实验的真实性。2) 设计了六种不同的提示策略，覆盖了不同的内容选择目标。3) 进行了大量的模拟实验（540,000次top-10选择），保证了结果的统计显著性。4) 在Twitter/X数据集上，根据作者的个人资料推断其政治倾向，并分析LLM在内容选择中是否存在政治倾向偏见。

🖼️ 关键图片

📊 实验亮点

实验结果表明，LLM在内容推荐中普遍存在极化偏见，且不同LLM提供商和提示策略对毒性处理和情感偏见的影响各不相同。例如，GPT-4o Mini在不同提示下表现最稳定，Claude和Gemini在毒性处理上更具适应性，Gemini则表现出更强的负面情感偏好。在Twitter/X上，左倾作者被系统性地过度代表，即使右倾作者占多数。

🎯 应用场景

该研究成果可应用于改进LLM驱动的内容推荐系统，减少极化、毒性和情感偏见，提升用户体验。通过优化提示策略，可以引导LLM选择更客观、中立和有益的内容。该研究还有助于提高公众对LLM偏见的认识，促进负责任的AI开发和部署。

📄 摘要（原文）

Large Language Models (LLMs) are increasingly deployed to curate and rank human-created content, yet the nature and structure of their biases in these tasks remains poorly understood: which biases are robust across providers and platforms, and which can be mitigated through prompt design. We present a controlled simulation study mapping content selection biases across three major LLM providers (OpenAI, Anthropic, Google) on real social media datasets from Twitter/X, Bluesky, and Reddit, using six prompting strategies (\textit{general}, \textit{popular}, \textit{engaging}, \textit{informative}, \textit{controversial}, \textit{neutral}). Through 540,000 simulated top-10 selections from pools of 100 posts across 54 experimental conditions, we find that biases differ substantially in how structural and how prompt-sensitive they are. Polarization is amplified across all configurations, toxicity handling shows a strong inversion between engagement- and information-focused prompts, and sentiment biases are predominantly negative. Provider comparisons reveal distinct trade-offs: GPT-4o Mini shows the most consistent behavior across prompts; Claude and Gemini exhibit high adaptivity in toxicity handling; Gemini shows the strongest negative sentiment preference. On Twitter/X, where author demographics can be inferred from profile bios, political leaning bias is the clearest demographic signal: left-leaning authors are systematically over-represented despite right-leaning authors forming the pool plurality in the dataset, and this pattern largely persists across prompts.

Polarization by Default: Auditing Recommendation Bias in LLM-Based Content Curation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理