Biases in Large Language Model-Elicited Text: A Case Study in Natural Language Inference
作者: Grace Proebsting, Adam Poliak
分类: cs.CL
发布日期: 2025-03-06
备注: arXiv admin note: substantial text overlap with arXiv:2410.08996
💡 一句话要点
揭示大型语言模型生成文本中的偏见:自然语言推理案例研究
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 自然语言推理 标注伪影 社会偏见 数据偏见 点互信息 BERT
📋 核心要点
- 现有NLP数据集可能包含由众包引入的标注伪影和社会偏见,影响模型泛化能力。
- 利用GPT-4等大型语言模型生成NLI数据集,并分析其中是否存在类似的标注伪影和偏见。
- 实验表明,LLM生成的数据集存在显著的标注伪影和刻板印象偏见,BERT仅使用假设即可达到高准确率。
📝 摘要(中文)
本文旨在研究使用大型语言模型(LLMs)创建的自然语言处理(NLP)数据集是否包含类似于众包工作者生成的数据集中的标注伪影和社会偏见。研究人员使用GPT-4、Llama-2 70b for Chat和Mistral 7b Instruct等LLM重新生成了Stanford自然语言推理(NLI)语料库的一部分。通过训练仅使用假设(hypothesis-only)的分类器,来确定LLM生成的NLI数据集是否包含标注伪影。此外,使用点互信息(pointwise mutual information)来识别每个数据集中与性别、种族和年龄相关的词语。实验结果表明,在LLM生成的NLI数据集上,微调后的BERT仅使用假设的分类器可以达到86-96%的准确率。分析进一步揭示了LLM生成的数据集中的标注伪影和刻板印象偏见。
🔬 方法详解
问题定义:现有自然语言推理(NLI)数据集可能受到标注伪影和社会偏见的影响,这些偏见可能源于数据收集过程中的人为因素。论文旨在研究使用大型语言模型(LLMs)生成NLI数据集是否也会引入类似的偏见,从而影响模型的公平性和泛化能力。现有方法难以有效识别和量化LLM生成数据中的偏见。
核心思路:论文的核心思路是,通过分析LLM生成NLI数据集中的标注模式和词语关联,来揭示其中存在的标注伪影和社会偏见。具体来说,首先使用LLM生成NLI数据集,然后训练仅使用假设(hypothesis-only)的分类器来检测标注伪影,最后使用点互信息(PMI)来识别与特定社会群体相关的词语。
技术框架:整体框架包括三个主要阶段:1) 数据生成:使用GPT-4、Llama-2 70b for Chat和Mistral 7b Instruct等LLM生成NLI数据集。2) 标注伪影检测:训练仅使用假设的BERT分类器,评估其在LLM生成数据集上的性能。如果分类器仅基于假设就能达到高准确率,则表明数据集中存在标注伪影。3) 偏见分析:使用点互信息(PMI)来识别数据集中与性别、种族和年龄相关的词语,从而揭示潜在的社会偏见。
关键创新:论文的关键创新在于,首次系统性地研究了LLM生成NLI数据集中的标注伪影和社会偏见。与以往主要关注人为标注数据偏见的研究不同,本文关注的是LLM作为数据生成器所引入的偏见。此外,使用仅使用假设的分类器和点互信息相结合的方法,能够有效地检测和量化LLM生成数据中的偏见。
关键设计:在标注伪影检测中,使用微调后的BERT模型作为仅使用假设的分类器。BERT模型的参数设置遵循标准配置。点互信息(PMI)的计算采用标准公式,用于衡量词语与特定社会群体之间的关联程度。研究人员还仔细选择了与性别、种族和年龄相关的关键词列表,以确保偏见分析的准确性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在LLM生成的NLI数据集上,微调后的BERT仅使用假设的分类器可以达到86-96%的准确率,这表明数据集中存在显著的标注伪影。点互信息分析揭示了数据集中存在的与性别、种族和年龄相关的刻板印象偏见。这些发现强调了LLM生成数据中偏见问题的严重性。
🎯 应用场景
该研究成果可应用于改进大型语言模型的数据生成流程,减少数据集中存在的偏见,从而提高模型的公平性和泛化能力。此外,该方法也可用于评估和修正现有NLP数据集中的偏见,促进更公平和可靠的AI系统的开发。该研究对于构建负责任的AI系统具有重要意义。
📄 摘要(原文)
We test whether NLP datasets created with Large Language Models (LLMs) contain annotation artifacts and social biases like NLP datasets elicited from crowd-source workers. We recreate a portion of the Stanford Natural Language Inference corpus using GPT-4, Llama-2 70b for Chat, and Mistral 7b Instruct. We train hypothesis-only classifiers to determine whether LLM-elicited NLI datasets contain annotation artifacts. Next, we use pointwise mutual information to identify the words in each dataset that are associated with gender, race, and age-related terms. On our LLM-generated NLI datasets, fine-tuned BERT hypothesis-only classifiers achieve between 86-96% accuracy. Our analyses further characterize the annotation artifacts and stereotypical biases in LLM-generated datasets.