Evaluating how LLM annotations represent diverse views on contentious topics

📄 arXiv: 2503.23243v2 📥 PDF

作者: Megan A. Brown, Shubham Atreja, Libby Hemphill, Patrick Y. Wu

分类: cs.CL, cs.AI, cs.CY

发布日期: 2025-03-29 (更新: 2025-06-16)


💡 一句话要点

评估LLM标注在争议性话题上对不同观点的代表性,揭示潜在偏见来源。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 数据标注 偏见评估 公平性 主观标注 人口统计学 标注难度 自然语言处理

📋 核心要点

  1. 现有研究较少关注生成式LLM在主观标注任务中存在的偏见,可能导致标注结果不成比例地偏向多数群体。
  2. 该研究评估LLM在争议性话题标注中对不同观点的代表性,分析LLM标注结果与人口统计学特征的相关性。
  3. 实验表明,LLM的偏差方向在相同数据集和人口统计学类别中具有一致性,且标注难度是影响LLM一致性的关键因素。

📝 摘要(中文)

研究人员提出了使用生成式大型语言模型(LLM)来标注数据,用于研究和应用环境。此前的文献强调了这些模型相对于其他自然语言模型的改进性能,并指出生成式LLM通常在多个指标上优于其他模型甚至人类。虽然之前的文献已经考察了许多应用和背景下的偏见,但较少的工作专门关注生成式LLM对主观标注任务的响应中的偏见。这种偏见可能导致LLM应用的标签不成比例地与多数群体保持一致,而不是与更多样化的观点保持一致。在本文中,我们评估了LLM如何代表这些有争议任务中的不同观点。通过对四个数据集的四个标注任务,我们表明LLM在人口统计学基础上并没有表现出与标注者之间系统性的重大分歧。相反,我们发现多个LLM在相同数据集内的相同人口统计学类别上倾向于朝相同的方向产生偏差。此外,人类标注者在标注任务上的分歧(项目难度的衡量标准)更能预测LLM与人类标注者的一致性。最后,我们讨论了使用LLM进行自动数据标注任务的研究人员和从业人员的意义。具体来说,我们强调公平性评估必须是上下文相关的,仅靠模型选择无法解决潜在的偏见问题,并且必须将项目难度纳入偏见评估中。

🔬 方法详解

问题定义:论文旨在评估大型语言模型(LLM)在主观标注任务中,是否会因为潜在的偏见而无法充分代表不同群体的观点。现有方法主要关注LLM的整体性能,而忽略了其在处理涉及不同观点和价值观的任务时可能存在的偏差,这可能导致模型在实际应用中产生不公平的结果。

核心思路:论文的核心思路是通过对比LLM的标注结果与不同人口统计学背景的人工标注者的标注结果,来识别LLM在特定数据集和人口统计学类别中存在的偏差。同时,研究还关注标注任务的难度对LLM标注一致性的影响,从而更全面地评估LLM的公平性。

技术框架:该研究的技术框架主要包括以下几个步骤:1) 选择包含不同观点和人口统计学信息的数据集;2) 使用多个LLM对数据集进行标注;3) 将LLM的标注结果与人工标注者的标注结果进行对比,分析LLM在不同人口统计学类别中的偏差;4) 评估标注任务的难度对LLM标注一致性的影响。

关键创新:该研究的关键创新在于其关注点从LLM的整体性能转向了其在主观标注任务中可能存在的偏差,并提出了通过对比LLM和人工标注结果来识别和评估这些偏差的方法。此外,该研究还强调了标注任务难度在偏差评估中的重要性,为更全面地评估LLM的公平性提供了新的视角。

关键设计:研究中使用了多个LLM,并选择了多个包含不同观点和人口统计学信息的数据集,以提高研究结果的可靠性和泛化能力。在对比LLM和人工标注结果时,研究人员使用了多种统计方法来量化偏差的大小和方向。此外,研究还使用了标注者间一致性等指标来衡量标注任务的难度,并分析其对LLM标注一致性的影响。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,LLM在人口统计学基础上并没有表现出与标注者之间系统性的重大分歧,但多个LLM在相同数据集内的相同人口统计学类别上倾向于朝相同的方向产生偏差。更重要的是,人类标注者在标注任务上的分歧(项目难度的衡量标准)更能预测LLM与人类标注者的一致性,这表明标注难度是影响LLM标注一致性的关键因素。

🎯 应用场景

该研究成果可应用于各种需要使用LLM进行数据标注的场景,例如情感分析、观点挖掘、内容审核等。通过识别和减轻LLM在标注过程中存在的偏差,可以提高标注数据的公平性和可靠性,从而避免模型在实际应用中产生不公平的结果。此外,该研究还可以为LLM的开发和评估提供指导,促进更加公平和负责任的AI技术的发展。

📄 摘要(原文)

Researchers have proposed the use of generative large language models (LLMs) to label data for research and applied settings. This literature emphasizes the improved performance of these models relative to other natural language models, noting that generative LLMs typically outperform other models and even humans across several metrics. Previous literature has examined bias across many applications and contexts, but less work has focused specifically on bias in generative LLMs' responses to subjective annotation tasks. This bias could result in labels applied by LLMs that disproportionately align with majority groups over a more diverse set of viewpoints. In this paper, we evaluate how LLMs represent diverse viewpoints on these contentious tasks. Across four annotation tasks on four datasets, we show that LLMs do not show systematic substantial disagreement with annotators on the basis of demographics. Rather, we find that multiple LLMs tend to be biased in the same directions on the same demographic categories within the same datasets. Moreover, the disagreement between human annotators on the labeling task -- a measure of item difficulty -- is far more predictive of LLM agreement with human annotators. We conclude with a discussion of the implications for researchers and practitioners using LLMs for automated data annotation tasks. Specifically, we emphasize that fairness evaluations must be contextual, model choice alone will not solve potential issues of bias, and item difficulty must be integrated into bias assessments.