Which English Do LLMs Prefer? Triangulating Structural Bias Towards American English in Foundation Models

📄 arXiv: 2604.04204 📥 PDF

作者: Mir Tafseer Nayeem, Davood Rafiei

分类: cs.CL, cs.AI, cs.CY, cs.ET, cs.LG

发布日期: 2026-04-07


💡 一句话要点

揭示大型语言模型对美式英语的结构性偏见,提出DiAlign方法进行量化分析。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 方言偏见 美式英语 英式英语 DiAlign方法 语言公平性 预训练语料库

📋 核心要点

  1. 现有大型语言模型在语言设置上存在局限性,特别是对美式英语的偏好,忽略了英语的多样性。
  2. 论文提出DiAlign方法,通过分布证据动态估计方言对齐,无需训练,用于量化语言模型中的方言偏见。
  3. 通过对预训练语料库、tokenizer和生成结果的分析,揭示了LLM在多个阶段对美式英语的系统性偏好。

📝 摘要(中文)

大型语言模型(LLMs)越来越多地应用于高风险领域,但它们仅暴露有限的语言设置,最显著的是“英语(美国)”,而忽略了英语的全球多样性和殖民历史。本文通过后殖民视角解释其更广泛的意义,探讨了数据管理、数字主导地位和语言标准化等地缘政治历史如何塑造LLM的开发流程。本文聚焦于两种主要的标准变体,即美式英语(AmE)和英式英语(BrE),构建了一个包含1,813个AmE-BrE变体的精选语料库,并引入了DiAlign,一种动态的、无需训练的方法,用于使用分布证据估计方言对齐。通过在三个阶段三角化证据来操作结构性偏见:(i)对六个主要预训练语料库的审计显示出系统性地偏向AmE,(ii)tokenizer分析表明BrE形式会产生更高的分段成本,以及(iii)生成评估显示模型输出中持续存在的AmE偏好。据我们所知,这是首次对LLM开发阶段中标准英语变体的方言不对称性进行系统的、多方面的检查。我们发现,当代LLM将AmE视为事实上的规范,这引起了人们对语言同质化、认知不公正以及全球AI部署中的不公平的担忧,同时激发了朝着更具方言包容性的语言技术迈进的实际步骤。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)对不同英语方言(特别是美式英语AmE和英式英语BrE)的偏见问题。现有方法缺乏系统性的量化分析,无法有效揭示LLM在数据、分词和生成等多个阶段的方言偏好,导致语言同质化和不公平现象。

核心思路:论文的核心思路是通过三角测量法,从预训练数据、分词器和生成结果三个维度,系统性地分析LLM对AmE和BrE的偏好。通过构建包含AmE-BrE变体的语料库,并提出DiAlign方法,量化不同方言在LLM中的表示和处理差异。

技术框架:论文的技术框架包含以下三个主要阶段: 1. 数据审计:分析六个主要的预训练语料库,统计AmE和BrE的使用频率,揭示数据层面的方言偏见。 2. 分词器分析:评估tokenizer对AmE和BrE的处理成本,例如token数量,反映分词器对不同方言的适应性。 3. 生成评估:通过生成任务,比较LLM生成AmE和BrE文本的质量和流畅度,验证模型输出的方言偏好。

关键创新:论文最重要的技术创新点是提出了DiAlign方法,一种动态的、无需训练的方法,用于使用分布证据估计方言对齐。与现有方法相比,DiAlign不需要额外的训练数据,可以直接应用于现有的LLM,具有更高的灵活性和可扩展性。

关键设计:DiAlign方法基于词嵌入的分布相似性,计算不同方言词汇之间的对齐程度。具体来说,对于每个AmE-BrE变体,DiAlign计算它们在LLM词嵌入空间中的余弦相似度,并使用动态阈值来判断是否对齐。此外,论文还设计了一系列指标,用于量化数据偏斜、分词成本和生成质量,从而全面评估LLM的方言偏见。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

研究表明,主流预训练语料库系统性地偏向美式英语,导致英式英语在分词时产生更高的成本。生成评估进一步证实了LLM在输出中对美式英语的偏好。DiAlign方法能够有效量化这种偏见,为后续改进提供了依据。

🎯 应用场景

该研究成果可应用于改进大型语言模型的公平性和包容性,减少语言同质化现象。通过优化预训练数据、分词器和生成策略,可以开发出更适应不同方言的语言模型,从而促进全球范围内的公平AI应用,尤其是在教育、客服和内容创作等领域。

📄 摘要(原文)

Large language models (LLMs) are increasingly deployed in high-stakes domains, yet they expose only limited language settings, most notably "English (US)," despite the global diversity and colonial history of English. Through a postcolonial framing to explain the broader significance, we investigate how geopolitical histories of data curation, digital dominance, and linguistic standardization shape the LLM development pipeline. Focusing on two dominant standard varieties, American English (AmE) and British English (BrE), we construct a curated corpus of 1,813 AmE--BrE variants and introduce DiAlign, a dynamic, training-free method for estimating dialectal alignment using distributional evidence. We operationalize structural bias by triangulating evidence across three stages: (i) audits of six major pretraining corpora reveal systematic skew toward AmE, (ii) tokenizer analyses show that BrE forms incur higher segmentation costs, and (iii) generative evaluations show a persistent AmE preference in model outputs. To our knowledge, this is the first systematic and multi-faceted examination of dialectal asymmetries in standard English varieties across the phases of LLM development. We find that contemporary LLMs privilege AmE as the de facto norm, raising concerns about linguistic homogenization, epistemic injustice, and inequity in global AI deployment, while motivating practical steps toward more dialectally inclusive language technologies.