Which Demographics do LLMs Default to During Annotation?

📄 arXiv: 2410.08820v3 📥 PDF

作者: Johannes Schäfer, Aidan Combs, Christopher Bagdon, Jiahui Li, Nadine Probol, Lynn Greschner, Sean Papay, Yarik Menchaca Resendiz, Aswathy Velutharambath, Amelie Wührl, Sabine Weber, Roman Klinger

分类: cs.CL

发布日期: 2024-10-11 (更新: 2025-05-28)

备注: ACL 2025


💡 一句话要点

研究LLM在无人口统计信息条件下的默认标注倾向,揭示其内在偏见

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 文本标注 人口统计偏见 公平性 POPQUORN数据集

📋 核心要点

  1. 人工标注受标注者人口统计学背景影响,导致数据偏差,现有方法难以有效解决此问题。
  2. 研究通过分析LLM在无人口统计信息条件下的标注倾向,揭示其内在偏见,并与人类标注进行对比。
  3. 实验表明,在人口统计prompt下,LLM的标注受到性别、种族和年龄的显著影响,与先前研究结论相悖。

📝 摘要(中文)

本文研究了大型语言模型(LLM)在文本标注中,当不提供人口统计信息时,会默认倾向于哪些人口统计属性。标注者的背景会影响标注结果,因此了解LLM的默认倾向至关重要。本文结合了两个研究方向:LLM的偏见和内在知识,以及通过人口统计信息操纵prompt来注入多样性。研究评估了LLM在无人口统计信息条件下的标注行为,并将其与人类标注者的属性进行比较。此外,还比较了非人口统计条件prompt、安慰剂条件prompt和人口统计条件prompt的效果。研究使用了POPQUORN数据集,该数据集专门用于研究基于人口统计信息的人工标注差异。研究结果表明,人口统计prompt对性别、种族和年龄有显著影响,这与之前的研究结果相反。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)在文本标注任务中,当不提供明确的人口统计信息时,其默认的标注倾向问题。现有方法在利用LLM进行数据标注时,往往忽略了LLM可能存在的内在偏见,导致标注结果可能带有特定人群的偏好,从而影响模型的公平性和泛化能力。

核心思路:论文的核心思路是探究LLM在没有明确人口统计信息提示的情况下,会模仿哪些人类标注者的属性。通过比较LLM在不同prompt条件下的标注结果,包括无条件prompt、安慰剂条件prompt和人口统计条件prompt,来分析LLM的默认标注倾向。这种方法旨在揭示LLM的内在偏见,并为后续消除偏见提供依据。

技术框架:该研究的技术框架主要包括以下几个步骤: 1. 数据集选择:使用POPQUORN数据集,该数据集包含基于不同人口统计信息的人工标注结果。 2. Prompt设计:设计三种类型的prompt:无条件prompt(不包含任何人口统计信息)、安慰剂条件prompt(包含无关信息,如“你住5号房子”)和人口统计条件prompt(包含明确的人口统计信息,如“你是一个45岁的男性”)。 3. LLM标注:使用LLM对数据集进行标注,分别使用上述三种类型的prompt。 4. 结果分析:比较LLM在不同prompt条件下的标注结果,分析其与不同人口统计人群标注结果的相似度,从而推断LLM的默认标注倾向。

关键创新:该研究的关键创新在于: 1. 首次系统性地研究了LLM在无人口统计信息条件下的默认标注倾向。 2. 使用了POPQUORN数据集,该数据集专门用于研究基于人口统计信息的人工标注差异,此前未被用于LLM分析。 3. 通过比较不同prompt条件下的标注结果,揭示了LLM在性别、种族和年龄方面的潜在偏见,这与之前的研究结果有所不同。

关键设计:研究的关键设计包括: 1. POPQUORN数据集的使用:该数据集提供了丰富的人工标注信息,可以用于比较LLM的标注结果与不同人口统计人群的标注结果。 2. Prompt的设计:三种类型的prompt设计可以有效区分LLM的内在偏见和外部prompt的影响。 3. 标注任务的选择:选择了礼貌性和冒犯性标注任务,这两个任务对人口统计信息较为敏感,更容易揭示LLM的偏见。

📊 实验亮点

实验结果表明,在人口统计prompt下,LLM的标注受到性别、种族和年龄的显著影响。例如,在礼貌性标注任务中,LLM在被提示为老年女性时,标注结果更保守。这一发现与之前的研究结果相反,表明LLM的偏见问题可能比之前认为的更复杂,需要进一步研究。

🎯 应用场景

该研究成果可应用于提升LLM在文本标注任务中的公平性和客观性。通过了解LLM的默认标注倾向,可以设计更有效的prompt策略,减少偏见,提高标注质量。此外,该研究还可以帮助开发更公平的AI系统,避免因数据偏差而导致的不良后果,例如在招聘、信贷评估等领域的歧视。

📄 摘要(原文)

Demographics and cultural background of annotators influence the labels they assign in text annotation -- for instance, an elderly woman might find it offensive to read a message addressed to a "bro", but a male teenager might find it appropriate. It is therefore important to acknowledge label variations to not under-represent members of a society. Two research directions developed out of this observation in the context of using large language models (LLM) for data annotations, namely (1) studying biases and inherent knowledge of LLMs and (2) injecting diversity in the output by manipulating the prompt with demographic information. We combine these two strands of research and ask the question to which demographics an LLM resorts to when no demographics is given. To answer this question, we evaluate which attributes of human annotators LLMs inherently mimic. Furthermore, we compare non-demographic conditioned prompts and placebo-conditioned prompts (e.g., "you are an annotator who lives in house number 5") to demographics-conditioned prompts ("You are a 45 year old man and an expert on politeness annotation. How do you rate {instance}"). We study these questions for politeness and offensiveness annotations on the POPQUORN data set, a corpus created in a controlled manner to investigate human label variations based on demographics which has not been used for LLM-based analyses so far. We observe notable influences related to gender, race, and age in demographic prompting, which contrasts with previous studies that found no such effects.