Impacts of Racial Bias in Historical Training Data for News AI
作者: Rahul Bhargava, Malene Hornstrup Jespersen, Emily Boardman Ndulue, Vivica Dsouza
分类: cs.LG, cs.AI, cs.CL, cs.CY
发布日期: 2025-12-18
💡 一句话要点
揭示新闻AI中历史数据偏见:以纽约时报语料库为例,分析种族标签的影响。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 新闻AI 数据偏见 可解释AI 种族偏见 自然语言处理
📋 核心要点
- 新闻AI模型训练数据中存在的历史偏见会导致模型输出不符合预期,甚至产生歧视性结果。
- 通过分析《纽约时报》语料库训练的多标签分类器中“黑人”标签的使用,揭示模型编码的潜在偏见。
- 利用可解释AI方法发现该标签在某些情况下充当“种族主义检测器”,但在现代事件中表现不佳。
📝 摘要(中文)
人工智能技术已迅速应用于涉及大型文本语料库的商业和研究应用,包括计算新闻研究和新闻编辑室环境。这些模型在来自各种来源的现有数据上进行训练,可以被概念化为编码了几十年前的态度和刻板印象的历史产物。本文研究了一个这样的例子,该例子在广泛使用的《纽约时报》注释语料库上进行训练,以创建一个多标签分类器。我们在研究环境中的使用浮现了令人担忧的“黑人”主题标签。通过定量和定性的方法,我们调查了该标签在训练语料库中的使用情况,它可能在训练分类器中编码的概念,以及这些概念如何影响我们的模型使用。通过应用可解释人工智能方法,我们发现“黑人”标签在一定程度上充当了针对一些少数群体的通用“种族主义检测器”。然而,它在现代例子(如COVID-19时代的反亚裔仇恨故事和对“黑人的命也是命”运动的报道)上的表现不尽如人意。这个对模型中嵌入偏见进行审视的案例研究揭示了新闻编辑室环境中类似的应用如何导致意想不到的输出,这些输出可能会影响任何大型语言模型的各种潜在用途——故事发现、受众定位、摘要等。这为新闻编辑室暴露出的根本矛盾是,如何在采用人工智能支持的工作流程工具的同时,降低在新闻报道中重现历史偏见的风险。
🔬 方法详解
问题定义:本文旨在解决新闻AI模型中由于历史训练数据偏差而导致的不良输出问题。现有方法忽略了训练数据中可能存在的偏见,导致模型在处理特定主题或群体时产生不准确或带有歧视性的结果。特别是在新闻领域,这种偏见会影响新闻报道的客观性和公正性。
核心思路:本文的核心思路是通过分析和解释模型在特定标签上的行为,来揭示模型中存在的偏见。通过定量和定性分析,研究人员深入了解了“黑人”标签在《纽约时报》语料库中的使用方式,以及模型如何学习和应用该标签。这种方法旨在识别模型中编码的潜在偏见,并评估其对模型输出的影响。
技术框架:该研究的技术框架主要包括以下几个阶段:1) 数据收集:使用《纽约时报》注释语料库作为训练数据。2) 模型训练:训练一个多标签分类器,用于预测新闻文章的主题标签。3) 标签分析:重点分析“黑人”标签在语料库中的使用情况。4) 可解释性分析:使用可解释AI方法(具体方法未知)来理解模型如何使用该标签进行预测。5) 案例研究:评估模型在现代事件(如COVID-19时代的反亚裔仇恨故事和“黑人的命也是命”运动)中的表现。
关键创新:本文的创新之处在于其对新闻AI模型中历史数据偏见的深入分析。通过结合定量和定性方法,研究人员揭示了模型中存在的潜在偏见,并评估了其对模型输出的影响。此外,该研究还强调了在新闻编辑室环境中应用AI技术时,需要关注和解决数据偏见问题。
关键设计:论文中关于模型训练、可解释性分析方法的具体技术细节未知。但可以推测,模型训练可能使用了常见的文本分类算法,如BERT或RoBERTa等预训练语言模型。可解释性分析可能使用了SHAP或LIME等方法来解释模型预测的原因。
🖼️ 关键图片
📊 实验亮点
研究发现,在《纽约时报》语料库上训练的模型将“黑人”标签部分地用作“种族主义检测器”,但其在COVID-19时代的反亚裔仇恨故事和“黑人的命也是命”运动等现代事件中的表现不佳,表明模型存在明显的历史偏见。
🎯 应用场景
该研究成果可应用于新闻编辑室,帮助识别和减轻AI模型中的偏见,提高新闻报道的客观性和公正性。此外,该方法也可推广到其他领域,如法律、教育等,用于评估和改进AI模型的公平性。
📄 摘要(原文)
AI technologies have rapidly moved into business and research applications that involve large text corpora, including computational journalism research and newsroom settings. These models, trained on extant data from various sources, can be conceptualized as historical artifacts that encode decades-old attitudes and stereotypes. This paper investigates one such example trained on the broadly-used New York Times Annotated Corpus to create a multi-label classifier. Our use in research settings surfaced the concerning "blacks" thematic topic label. Through quantitative and qualitative means we investigate this label's use in the training corpus, what concepts it might be encoding in the trained classifier, and how those concepts impact our model use. Via the application of explainable AI methods, we find that the "blacks" label operates partially as a general "racism detector" across some minoritized groups. However, it performs poorly against expectations on modern examples such as COVID-19 era anti-Asian hate stories, and reporting on the Black Lives Matter movement. This case study of interrogating embedded biases in a model reveals how similar applications in newsroom settings can lead to unexpected outputs that could impact a wide variety of potential uses of any large language model-story discovery, audience targeting, summarization, etc. The fundamental tension this exposes for newsrooms is how to adopt AI-enabled workflow tools while reducing the risk of reproducing historical biases in news coverage.