Can Small-Scale Data Poisoning Exacerbate Dialect-Linked Biases in Large Language Models?
作者: Chaymaa Abbas, Mariette Awad, Razane Tajeddine
分类: cs.CL, cs.AI, cs.LG
发布日期: 2025-07-25 (更新: 2025-10-09)
💡 一句话要点
小规模数据投毒会加剧大型语言模型中与方言相关的偏见
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 数据投毒 大型语言模型 方言偏见 社会语言学 毒性检测
📋 核心要点
- 大型语言模型(LLM)可能受到数据偏见的影响,导致对特定方言(如AAVE)产生歧视性或有害的输出。
- 该研究提出了一种风格条件数据投毒方法,通过将方言提示与有毒或刻板印象的补全配对,来放大LLM中的社会语言偏见。
- 实验表明,即使是小规模的数据投毒也会显著增加LLM对特定方言(尤其是AAVE)的毒性和刻板印象表达,并可能导致越狱行为。
📝 摘要(中文)
本研究发现,风格条件数据投毒是一种隐蔽的向量,可以放大大型语言模型中的社会语言偏见。通过使用小规模的投毒预算,将方言提示(主要是非裔美国人白话英语(AAVE)和南方方言)与指令微调期间的有毒或刻板印象补全配对,这项工作探讨了语言风格是否可以作为有害行为的潜在触发因素。在多个模型系列和规模上,投毒暴露会提升方言输入的毒性和刻板印象表达——最一致的是 AAVE——而标准美国英语的毒性和刻板印象表达相对较低,但并非完全免疫。一项结合了基于分类器的毒性分析和LLM-as-a-judge的多指标审计显示,即使词汇毒性似乎减弱,也存在充满刻板印象的内容,表明传统的检测器低估了社会语言危害。此外,投毒模型表现出新兴的越狱行为,尽管毒药中没有明确的诽谤,这表明对齐减弱而不是记忆。这些发现强调需要进行方言感知评估、内容级别的刻板印象审计以及明确将风格与毒性分离的训练协议,以防止通过看似微小的、基于风格的污染来放大偏见。
🔬 方法详解
问题定义:现有的大型语言模型在训练数据中可能存在偏见,导致模型在处理不同方言时产生不公平或有害的输出。现有的毒性检测方法可能无法充分捕捉到与社会语言相关的细微偏见和刻板印象。
核心思路:该研究的核心思路是利用风格条件数据投毒来放大LLM中与方言相关的偏见。通过在训练数据中引入少量带有偏见的样本,诱导模型将特定方言与负面内容关联起来。这种方法旨在模拟现实世界中存在的隐蔽偏见,并评估其对LLM的影响。
技术框架:该研究的技术框架主要包括以下几个步骤:1) 选择目标方言(如AAVE和南方方言)和标准美国英语;2) 构建包含方言提示和有毒/刻板印象补全的投毒数据集;3) 使用投毒数据集对LLM进行指令微调;4) 使用多种指标(包括基于分类器的毒性分析和LLM-as-a-judge)评估模型的毒性和刻板印象表达;5) 分析投毒对模型越狱行为的影响。
关键创新:该研究的关键创新在于:1) 提出了一种风格条件数据投毒方法,可以有效地放大LLM中与方言相关的偏见;2) 揭示了即使是小规模的数据投毒也可能对LLM产生显著的负面影响;3) 强调了传统毒性检测方法在评估社会语言危害方面的局限性;4) 发现了投毒模型中出现的新兴越狱行为。
关键设计:在构建投毒数据集时,研究人员精心设计了方言提示和补全,以确保它们在语义上相关,并且能够有效地诱导模型产生偏见。在评估模型性能时,研究人员使用了多种指标,包括基于分类器的毒性分析、LLM-as-a-judge和越狱测试,以全面评估投毒对模型的影响。研究人员还控制了投毒数据集的规模,以评估小规模投毒的影响。
📊 实验亮点
实验结果表明,即使使用小规模的投毒数据集(例如,仅占训练数据的1%),也会显著增加LLM对AAVE等方言的毒性和刻板印象表达。此外,投毒模型还表现出新兴的越狱行为,表明模型的对齐性受到了损害。这些结果强调了数据投毒对LLM的潜在危害,并突出了开发更强大的防御机制的必要性。
🎯 应用场景
该研究成果可应用于提升大型语言模型的公平性和安全性。通过开发更有效的方言感知评估方法和训练协议,可以减少模型对特定方言的偏见,并防止数据投毒攻击。此外,该研究还可以帮助开发人员构建更可靠的毒性检测器,以更好地识别和过滤有害内容。
📄 摘要(原文)
Style-conditioned data poisoning is identified as a covert vector for amplifying sociolinguistic bias in large language models. Using small poisoned budgets that pair dialectal prompts -- principally African American Vernacular English (AAVE) and a Southern dialect -- with toxic or stereotyped completions during instruction tuning, this work probes whether linguistic style can act as a latent trigger for harmful behavior. Across multiple model families and scales, poisoned exposure elevates toxicity and stereotype expression for dialectal inputs -- most consistently for AAVE -- while Standard American English remains comparatively lower yet not immune. A multi-metric audit combining classifier-based toxicity with an LLM-as-a-judge reveals stereotype-laden content even when lexical toxicity appears muted, indicating that conventional detectors under-estimate sociolinguistic harms. Additionally, poisoned models exhibit emergent jailbreaking despite the absence of explicit slurs in the poison, suggesting weakened alignment rather than memorization. These findings underscore the need for dialect-aware evaluation, content-level stereotype auditing, and training protocols that explicitly decouple style from toxicity to prevent bias amplification through seemingly minor, style-based contamination.