When AI Writes, Whose Voice Remains? Quantifying Cultural Marker Erasure Across World English Varieties in Large Language Models

📄 arXiv: 2602.22145v1 📥 PDF

作者: Satyam Kumar Navneet, Joydeep Chandra, Yong Zhang

分类: cs.HC, cs.AI, cs.CL

发布日期: 2026-02-25

DOI: 10.1145/3772363.3799085


💡 一句话要点

量化大型语言模型中世界英语变体的文化标记擦除现象

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 文化标记擦除 非母语英语 身份擦除率 语义保留分数

📋 核心要点

  1. 现有大型语言模型在文本处理中会擦除非母语英语的文化标记,导致语言身份的丧失。
  2. 论文提出通过身份擦除率(IER)和语义保留分数(SPS)来量化文化标记的擦除现象。
  3. 实验表明,模型在保持语义相似性的同时会擦除文化标记,且明确的文化保护提示可以有效降低擦除率。

📝 摘要(中文)

大型语言模型(LLM)越来越多地被用于“专业化”工作场所的交流,但往往以牺牲语言身份为代价。本文提出了“文化幽灵”的概念,即在文本处理过程中系统性地擦除非母语英语变体特有的语言标记。通过分析由五个模型在三种提示条件下处理的1490个文化标记文本(印度、新加坡和尼日利亚英语)生成的22350个LLM输出,我们使用两个新颖的指标来量化这种现象:身份擦除率(IER)和语义保留分数(SPS)。在所有提示下,我们发现总体IER为10.26%,模型间的变化范围为3.5%到20.5%(5.9倍)。至关重要的是,我们发现了一个语义保留悖论:模型在系统性地擦除文化标记的同时,保持了较高的语义相似性(平均SPS = 0.748)。语用标记(礼貌惯例)比词汇标记更容易被擦除(71.5% vs. 37.1%)。我们的实验表明,明确的文化保护提示可以在不牺牲语义质量的情况下,将擦除率降低29%。

🔬 方法详解

问题定义:论文旨在解决大型语言模型在处理不同文化背景的英语文本时,存在的文化标记擦除问题。现有方法未能充分考虑和保留非母语英语的语言特征,导致文化身份的丧失。这种擦除不仅影响了语言的多样性,也可能对使用这些语言变体的人群造成负面影响。

核心思路:论文的核心思路是通过量化文化标记的擦除程度,来评估不同语言模型在处理不同文化背景英语文本时的表现。通过定义身份擦除率(IER)和语义保留分数(SPS)两个指标,可以客观地衡量模型在保留文化特征和保持语义完整性方面的能力。同时,论文还探索了通过提示工程来减少文化标记擦除的方法。

技术框架:论文的技术框架主要包括以下几个步骤:1) 收集包含文化标记的文本数据集(印度、新加坡和尼日利亚英语);2) 使用不同的语言模型(五个模型)在不同的提示条件下(三种提示条件)生成文本;3) 使用定义的指标(IER和SPS)量化文化标记的擦除程度;4) 分析实验结果,探讨不同模型和提示条件对文化标记擦除的影响。

关键创新:论文最重要的技术创新点在于提出了身份擦除率(IER)和语义保留分数(SPS)这两个新颖的指标。IER用于衡量模型擦除文化标记的程度,SPS用于衡量模型在处理文本时保持语义完整性的能力。这两个指标为量化文化标记擦除现象提供了客观的评估标准。

关键设计:论文的关键设计包括:1) 选择了具有代表性的三种非母语英语变体(印度、新加坡和尼日利亚英语)作为研究对象;2) 设计了三种不同的提示条件,包括标准提示、文化保护提示等,以探索不同提示对文化标记擦除的影响;3) 使用了多种语言模型,以评估不同模型在处理文化标记方面的表现;4) 详细定义了IER和SPS的计算方法,确保指标的准确性和可比性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,大型语言模型在处理非母语英语文本时存在显著的文化标记擦除现象,总体IER为10.26%,模型间差异显著(3.5%到20.5%)。同时,论文发现模型在保持较高语义相似性的同时,会系统性地擦除文化标记(平均SPS = 0.748)。实验还证明,明确的文化保护提示可以有效降低擦除率,最高可降低29%。

🎯 应用场景

该研究成果可应用于改进大型语言模型,使其在处理不同文化背景的文本时,能够更好地保留和尊重语言的多样性。这对于促进跨文化交流、保护语言遗产以及提高语言模型的公平性和包容性具有重要意义。未来,该研究可以扩展到更多语言和文化,为构建更加多元和包容的自然语言处理系统提供指导。

📄 摘要(原文)

Large Language Models (LLMs) are increasingly used to ``professionalize'' workplace communication, often at the cost of linguistic identity. We introduce "Cultural Ghosting", the systematic erasure of linguistic markers unique to non-native English varieties during text processing. Through analysis of 22,350 LLM outputs generated from 1,490 culturally marked texts (Indian, Singaporean,& Nigerian English) processed by five models under three prompt conditions, we quantify this phenomenon using two novel metrics: Identity Erasure Rate (IER) & Semantic Preservation Score (SPS). Across all prompts, we find an overall IER of 10.26%, with model-level variation from 3.5% to 20.5% (5.9x range). Crucially, we identify a Semantic Preservation Paradox: models maintain high semantic similarity (mean SPS = 0.748) while systematically erasing cultural markers. Pragmatic markers (politeness conventions) are 1.9x more vulnerable than lexical markers (71.5% vs. 37.1% erasure). Our experiments demonstrate that explicit cultural-preservation prompts reduce erasure by 29% without sacrificing semantic quality.