Seeing Like an AI: How LLMs Apply (and Misapply) Wikipedia Neutrality Norms

📄 arXiv: 2407.04183v3 📥 PDF

作者: Joshua Ashkinaze, Ruijia Guan, Laura Kurek, Eytan Adar, Ceren Budak, Eric Gilbert

分类: cs.CL, cs.AI, cs.CY, cs.HC

发布日期: 2024-07-04 (更新: 2024-09-14)


💡 一句话要点

评估大语言模型在维基百科中应用中立性原则的能力与偏差

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 维基百科 中立性 偏差检测 内容审核

📋 核心要点

  1. 现有方法难以保证LLM在特定社区(如维基百科)中遵循其特有的中立性规范,导致模型输出可能存在偏差。
  2. 该研究通过评估LLM在维基百科中立性原则的应用能力,揭示了模型在偏差检测和纠正方面的表现。
  3. 实验表明,LLM在偏差检测准确率较低,但在生成中立性文本方面表现较好,但存在过度修改的问题。

📝 摘要(中文)

大型语言模型(LLM)在广泛的语料库上进行训练,然后应用于具有专门规范的社区。为LLM提供社区规则是否足以让模型遵循这些规范?我们评估了LLM根据维基百科的中立观点(NPOV)政策检测(任务1)和纠正(任务2)有偏见的维基百科编辑的能力。LLM在偏差检测方面表现不佳,在平衡数据集上仅达到64%的准确率。模型表现出对比鲜明的偏差(一些低估而另一些高估偏差),表明对中立性有不同的先验认知。LLM在生成方面表现更好,删除了维基百科编辑者删除的79%的单词。然而,LLM进行了超出维基百科编辑者更简单的中立化之外的额外更改,导致高召回率但低精度的编辑。有趣的是,众包工作者认为AI重写比维基百科编辑者的重写更中立(70%)和流畅(61%)。定性分析发现,LLM有时比维基百科编辑者更全面地应用NPOV,但经常进行与NPOV无关的额外更改(例如,语法)。LLM应用规则的方式可能与公众产生共鸣,但与社区专家不同。虽然可能对生成有效,但LLM可能会降低编辑者的自主性并增加审核工作量(例如,验证添加内容)。即使规则很容易表达,让LLM像社区成员一样应用它们仍然可能很困难。

🔬 方法详解

问题定义:论文旨在研究大型语言模型(LLM)在维基百科编辑中应用中立观点(NPOV)政策的能力。现有方法的痛点在于,尽管LLM在大量文本数据上训练,但它们是否能够理解并遵循特定社区(如维基百科)的细粒度规范仍然未知。LLM可能无法准确检测和纠正维基百科文章中的偏差,导致生成的内容不符合维基百科的中立性要求。

核心思路:论文的核心思路是直接评估LLM在维基百科NPOV任务上的表现。通过设计偏差检测和偏差纠正两个任务,考察LLM是否能够识别并消除维基百科文章中的偏差。这种直接评估方法可以揭示LLM在应用特定社区规范方面的优势和不足。

技术框架:该研究的技术框架主要包括以下几个部分:1) 构建包含有偏见和无偏见维基百科编辑的数据集。2) 使用LLM进行偏差检测,判断给定的维基百科编辑是否包含偏差。3) 使用LLM进行偏差纠正,生成更符合NPOV的维基百科编辑。4) 使用人工评估和自动指标评估LLM的性能。

关键创新:该研究的关键创新在于:1) 系统性地评估了LLM在维基百科NPOV任务上的表现,揭示了LLM在偏差检测和纠正方面的局限性。2) 发现LLM在偏差检测方面存在偏差,不同模型对中立性的理解存在差异。3) 发现LLM在偏差纠正方面存在过度修改的问题,即LLM可能会进行与NPOV无关的额外更改。

关键设计:在实验设计方面,论文使用了平衡数据集,确保有偏见和无偏见的样本数量相等,从而避免模型在训练过程中产生偏差。在评估指标方面,论文使用了准确率、召回率和精确率等指标,全面评估LLM在偏差检测和纠正方面的性能。此外,论文还使用了人工评估,从流畅性和中立性等方面评估LLM生成的内容质量。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,LLM在偏差检测任务中准确率仅为64%,表明其在理解和应用维基百科中立性原则方面存在困难。然而,在偏差纠正任务中,LLM能够删除维基百科编辑者删除的79%的单词,表明其在生成中立性文本方面具有一定的潜力。但LLM会进行过度修改,导致高召回率和低精确率。人工评估显示,AI重写版本比维基百科编辑者重写版本更中立(70% vs. 未知)和流畅(61% vs. 未知)。

🎯 应用场景

该研究的潜在应用领域包括:自动化内容审核、辅助内容创作、提高在线社区的内容质量。通过利用LLM自动检测和纠正内容中的偏差,可以减少人工审核的工作量,提高内容审核的效率。此外,该研究还可以帮助LLM更好地理解和遵循特定社区的规范,从而生成更符合社区要求的内容。未来,该研究可以扩展到其他在线社区,例如社交媒体平台和论坛。

📄 摘要(原文)

Large language models (LLMs) are trained on broad corpora and then used in communities with specialized norms. Is providing LLMs with community rules enough for models to follow these norms? We evaluate LLMs' capacity to detect (Task 1) and correct (Task 2) biased Wikipedia edits according to Wikipedia's Neutral Point of View (NPOV) policy. LLMs struggled with bias detection, achieving only 64% accuracy on a balanced dataset. Models exhibited contrasting biases (some under- and others over-predicted bias), suggesting distinct priors about neutrality. LLMs performed better at generation, removing 79% of words removed by Wikipedia editors. However, LLMs made additional changes beyond Wikipedia editors' simpler neutralizations, resulting in high-recall but low-precision editing. Interestingly, crowdworkers rated AI rewrites as more neutral (70%) and fluent (61%) than Wikipedia-editor rewrites. Qualitative analysis found LLMs sometimes applied NPOV more comprehensively than Wikipedia editors but often made extraneous non-NPOV-related changes (such as grammar). LLMs may apply rules in ways that resonate with the public but diverge from community experts. While potentially effective for generation, LLMs may reduce editor agency and increase moderation workload (e.g., verifying additions). Even when rules are easy to articulate, having LLMs apply them like community members may still be difficult.