Large Language Models Discriminate Against Speakers of German Dialects

📄 arXiv: 2509.13835v1 📥 PDF

作者: Minh Duc Bui, Carolin Holtermann, Valentin Hofmann, Anne Lauscher, Katharina von der Wense

分类: cs.CL

发布日期: 2025-09-17

备注: Accepted to EMNLP 2025 Main


💡 一句话要点

大型语言模型对德语方言使用者存在歧视性偏见

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 方言偏见 德语方言 社会语言学 自然语言处理

📋 核心要点

  1. 现有研究较少关注大型语言模型对特定语言方言使用者的偏见,而方言歧视在现实社会中普遍存在。
  2. 该研究通过构建新的评估语料库和设计关联及决策任务,系统性地评估了LLM中的方言偏见。
  3. 实验结果表明,LLM对德语方言使用者存在显著的命名和使用偏见,且显式提及方言会加剧这种偏见。

📝 摘要(中文)

方言是人类文化的重要组成部分,遍布世界各地。在德国,超过40%的人口说某种地区方言。然而,尽管方言具有重要的文化意义,但说方言的人常常面临负面的社会刻板印象。本文研究了大型语言模型(LLM)是否也反映了这种刻板印象。我们借鉴了关于方言感知的社会语言学文献,分析了通常与方言使用者相关的特征。基于这些特征,我们通过关联任务和决策任务评估了LLM所表现出的方言命名偏见和方言使用偏见。为了评估模型的方言使用偏见,我们构建了一个新的评估语料库,该语料库将七种德国地区方言(如阿勒曼尼语和巴伐利亚语)的句子与其标准德语对应句子配对。我们发现:(1)在关联任务中,所有评估的LLM都表现出对方言使用者的显著方言命名和方言使用偏见,这反映在负面的形容词关联中;(2)所有模型都在其决策中重现了这些方言命名和方言使用偏见;(3)与先前研究表明显式人口统计信息提及对偏见影响很小相反,我们发现显式标记语言人口统计信息(德语方言使用者)比隐式线索(如方言使用)更能放大偏见。

🔬 方法详解

问题定义:论文旨在研究大型语言模型(LLM)是否会受到社会中存在的对方言使用者的刻板印象的影响,从而表现出对方言使用者的偏见。现有方法缺乏对LLM中方言偏见的系统性评估,并且没有充分考虑显式人口统计信息对偏见的影响。

核心思路:论文的核心思路是借鉴社会语言学中关于方言感知的研究,识别与方言使用者相关的特征,并基于这些特征设计实验来评估LLM的方言命名偏见和方言使用偏见。通过构建包含不同德语方言及其标准德语对应句子的语料库,可以更准确地评估LLM在处理不同方言时的行为。

技术框架:论文的评估框架包含两个主要任务:关联任务和决策任务。关联任务旨在评估LLM将特定方言与正面或负面形容词联系起来的程度。决策任务旨在评估LLM在需要基于语言信息做出决策时,是否会受到方言偏见的影响。该框架还考虑了显式和隐式线索对偏见的影响,通过比较在提供或不提供明确的方言使用者信息的情况下,LLM的表现差异来评估显式人口统计信息的影响。

关键创新:论文的关键创新在于:1)构建了一个新的德语方言评估语料库,该语料库包含七种不同的德国地区方言及其标准德语对应句子;2)系统性地评估了LLM中的方言命名偏见和方言使用偏见,并量化了这些偏见的程度;3)发现显式提及方言使用者会加剧LLM中的偏见,这与之前的研究结果相反。

关键设计:在关联任务中,论文使用预定义的形容词列表(包含正面和负面形容词),并计算LLM将特定方言与这些形容词关联起来的概率。在决策任务中,论文设计了一系列需要基于语言信息做出决策的场景,并评估LLM在不同方言输入下的决策结果。对于显式人口统计信息的影响,论文通过在输入中明确提及“德语方言使用者”来评估其对偏见的影响。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,所有评估的LLM都表现出对方言使用者的显著方言命名和方言使用偏见,这反映在负面的形容词关联中。此外,与先前研究表明显式人口统计信息提及对偏见影响很小相反,该研究发现显式标记语言人口统计信息(德语方言使用者)比隐式线索(如方言使用)更能放大偏见。

🎯 应用场景

该研究有助于提高人们对AI系统中存在的语言偏见的认识,并促进开发更公平、更包容的自然语言处理技术。研究结果可以应用于开发更公平的语音识别、机器翻译和文本生成系统,减少对特定方言使用者的歧视,并促进语言多样性。

📄 摘要(原文)

Dialects represent a significant component of human culture and are found across all regions of the world. In Germany, more than 40% of the population speaks a regional dialect (Adler and Hansen, 2022). However, despite cultural importance, individuals speaking dialects often face negative societal stereotypes. We examine whether such stereotypes are mirrored by large language models (LLMs). We draw on the sociolinguistic literature on dialect perception to analyze traits commonly associated with dialect speakers. Based on these traits, we assess the dialect naming bias and dialect usage bias expressed by LLMs in two tasks: an association task and a decision task. To assess a model's dialect usage bias, we construct a novel evaluation corpus that pairs sentences from seven regional German dialects (e.g., Alemannic and Bavarian) with their standard German counterparts. We find that: (1) in the association task, all evaluated LLMs exhibit significant dialect naming and dialect usage bias against German dialect speakers, reflected in negative adjective associations; (2) all models reproduce these dialect naming and dialect usage biases in their decision making; and (3) contrary to prior work showing minimal bias with explicit demographic mentions, we find that explicitly labeling linguistic demographics--German dialect speakers--amplifies bias more than implicit cues like dialect usage.