Large Language Models Discriminate Against Speakers of German Dialects

作者: Minh Duc Bui, Carolin Holtermann, Valentin Hofmann, Anne Lauscher, Katharina von der Wense

分类: cs.CL

发布日期: 2025-09-17

备注: Accepted to EMNLP 2025 Main

💡 一句话要点

大型语言模型对德语方言使用者存在歧视性偏见

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 方言歧视 社会偏见 自然语言处理 公平性 德国方言 评估语料库

📋 核心要点

现有研究较少关注大型语言模型对特定语言方言使用者的偏见，而方言歧视在现实社会中普遍存在。
该研究通过构建新的评估语料库和设计联想、决策任务，系统性地评估了LLM在方言命名和使用上的偏见。
实验结果表明，LLM普遍存在对方言使用者的负面偏见，且显式提及语言人口统计信息会加剧这种偏见。

📝 摘要（中文）

方言是人类文化的重要组成部分，遍布世界各地。在德国，超过40%的人口使用地区方言。然而，尽管方言具有重要的文化意义，但说方言的人常常面临负面的社会刻板印象。本文研究了大型语言模型（LLM）是否也反映了这种刻板印象。我们借鉴了关于方言感知的社会语言学文献，分析了通常与方言使用者相关的特征。基于这些特征，我们通过联想任务和决策任务评估了LLM所表现出的方言命名偏见和方言使用偏见。为了评估模型的方言使用偏见，我们构建了一个新的评估语料库，该语料库将七种德国地区方言（例如，阿勒曼尼语和巴伐利亚语）的句子与其标准德语对应句子配对。我们发现：（1）在联想任务中，所有评估的LLM都表现出针对德国方言使用者的显著方言命名和方言使用偏见，这反映在负面的形容词联想中；（2）所有模型都在其决策中重现了这些方言命名和方言使用偏见；（3）与先前表明显式人口统计提及几乎没有偏见的研究相反，我们发现显式标记语言人口统计信息（德国方言使用者）比隐式线索（如方言使用）更能放大偏见。

🔬 方法详解

问题定义：论文旨在研究大型语言模型（LLM）是否会表现出对德语方言使用者的偏见。现有方法缺乏对LLM在方言层面的偏见评估，而社会语言学研究表明，方言使用者常面临负面刻板印象，因此有必要考察LLM是否会无意中强化这些偏见。

核心思路：论文的核心思路是借鉴社会语言学中关于方言感知的研究，识别与方言使用者相关的特征，并设计相应的任务来评估LLM是否会将这些特征与负面属性联系起来。通过构建包含方言和标准德语的语料库，可以量化LLM在处理不同语言变体时的差异。

技术框架：论文采用两种主要任务来评估LLM的偏见：联想任务和决策任务。联想任务旨在考察LLM是否会将特定方言与负面形容词联系起来。决策任务则评估LLM在涉及方言使用者的情境中，是否会做出带有偏见的决策。此外，论文还构建了一个新的评估语料库，包含七种德国地区方言及其对应的标准德语句子。

关键创新：该研究的关键创新在于：1) 首次系统性地评估了LLM对德语方言使用者的偏见；2) 构建了一个包含多种德语方言及其标准语对应句子的评估语料库；3) 发现显式提及语言人口统计信息会加剧LLM的偏见，这与以往研究中关于人口统计信息对偏见影响的结论有所不同。

关键设计：在联想任务中，研究人员使用预定义的形容词列表（包含正面和负面形容词），并计算LLM将特定方言与这些形容词关联的概率。在决策任务中，研究人员设计了涉及方言使用者的情境，并评估LLM在不同情境下做出的决策是否带有偏见。语料库构建的关键在于保证方言句子与其标准语对应句子的语义一致性，以便准确评估LLM对不同语言变体的处理差异。

📊 实验亮点

实验结果表明，所有评估的LLM都表现出针对德国方言使用者的显著偏见。在联想任务中，LLM倾向于将负面形容词与方言联系起来。在决策任务中，LLM在涉及方言使用者的情境中做出了带有偏见的决策。更重要的是，研究发现显式提及“德国方言使用者”这一人口统计信息会显著加剧LLM的偏见。

🎯 应用场景

该研究的潜在应用领域包括：改进LLM的公平性和包容性，减少AI系统中的社会偏见；开发更具文化敏感性的自然语言处理应用；为社会语言学研究提供新的工具和视角。研究结果有助于提高公众对AI偏见的认识，并促进负责任的AI开发。

📄 摘要（原文）

Dialects represent a significant component of human culture and are found across all regions of the world. In Germany, more than 40% of the population speaks a regional dialect (Adler and Hansen, 2022). However, despite cultural importance, individuals speaking dialects often face negative societal stereotypes. We examine whether such stereotypes are mirrored by large language models (LLMs). We draw on the sociolinguistic literature on dialect perception to analyze traits commonly associated with dialect speakers. Based on these traits, we assess the dialect naming bias and dialect usage bias expressed by LLMs in two tasks: an association task and a decision task. To assess a model's dialect usage bias, we construct a novel evaluation corpus that pairs sentences from seven regional German dialects (e.g., Alemannic and Bavarian) with their standard German counterparts. We find that: (1) in the association task, all evaluated LLMs exhibit significant dialect naming and dialect usage bias against German dialect speakers, reflected in negative adjective associations; (2) all models reproduce these dialect naming and dialect usage biases in their decision making; and (3) contrary to prior work showing minimal bias with explicit demographic mentions, we find that explicitly labeling linguistic demographics--German dialect speakers--amplifies bias more than implicit cues like dialect usage.

Large Language Models Discriminate Against Speakers of German Dialects

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册