Location Not Found: Exposing Implicit Local and Global Biases in Multilingual LLMs
作者: Guy Mor-Lan, Omer Goldman, Matan Eyal, Adi Mayrav Gilady, Sivan Eiger, Idan Szpektor, Avinatan Hassidim, Yossi Matias, Reut Tsarfaty
分类: cs.CL, cs.AI
发布日期: 2026-04-21
备注: ACL 2026 main conference
💡 一句话要点
LocQA揭示多语言LLM中隐含的地域和全局偏见
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多语言LLM 地域偏见 语言偏见 指令微调 LocQA 公平性 跨文化信息处理
📋 核心要点
- 多语言LLM存在跨语言知识迁移导致的偏见风险,现有方法缺乏有效量化地域偏见的能力。
- 提出LocQA测试集,通过地域歧义问题评估LLM在不同语言和地域间的隐含偏见。
- 实验表明LLM存在对美国地域的全局偏见,且指令微调会加剧此偏见,同时存在人口统计偏见。
📝 摘要(中文)
多语言大型语言模型(LLM)已经显著缩小了语言之间的流畅性差距。然而,这种进步也使模型面临产生偏见行为的风险,因为知识和规范可能在不同语言之间传播。本文旨在量化模型在语言内部和语言之间的偏见,通过它们回答具有地域歧义问题的能力。为此,我们提出了LocQA,一个包含12种语言的2156个问题的测试集,涉及各种依赖于地域的事实,如法律、日期和度量单位。这些问题除了查询语言本身之外,不包含任何与地域相关的指示。因此,LLM对LocQA中地域歧义问题的回答揭示了模型隐含的先验知识。我们使用LocQA评估了32个模型,并检测到两种类型的结构性偏见。在语言间,我们发现了一种针对美国地域答案的全局偏见,即使模型是用英语以外的语言提问。此外,我们发现,与基础模型相比,经过指令微调的模型中,这种全局偏见更加严重。在语言内,我们发现,当同一种语言有多个相关的地域时,模型表现得像人口统计概率引擎,优先考虑人口较多的地域。总而言之,来自LocQA的见解可能有助于塑造LLM所需的本地行为,并量化各种训练阶段对不同类型偏见的影响。
🔬 方法详解
问题定义:论文旨在解决多语言LLM中存在的地域偏见问题。现有方法难以有效量化LLM在不同语言和地域之间的隐含偏见,尤其是在问题本身不明确指定地域的情况下。这种偏见可能导致模型在处理跨文化信息时产生不准确或不公平的结果。
核心思路:论文的核心思路是通过构建一个包含地域歧义问题的测试集LocQA,来评估LLM在回答问题时表现出的隐含地域偏见。LocQA中的问题设计为不明确指定地域,从而迫使模型依赖其内部知识和先验信息来生成答案。通过分析模型对这些问题的回答,可以揭示模型在不同语言和地域之间的偏见程度。
技术框架:LocQA测试集包含12种语言的2156个问题,涵盖法律、日期、度量单位等依赖于地域的事实。问题设计避免明确提及地域信息,仅通过查询语言暗示。研究人员使用LocQA评估了32个LLM,分析模型在不同语言和地域下的回答分布,从而量化模型存在的地域偏见。评估过程包括分析模型在语言间和语言内的偏见,例如对美国地域的全局偏见和基于人口统计的地域偏好。
关键创新:LocQA测试集的设计是关键创新点。它通过地域歧义问题,迫使模型在没有明确地域提示的情况下进行回答,从而揭示模型隐含的地域偏见。与以往依赖明确地域信息进行评估的方法不同,LocQA能够更真实地反映模型在实际应用中可能存在的偏见。此外,对指令微调模型偏见加剧的发现也具有重要意义。
关键设计:LocQA的问题设计需要保证地域歧义性,即问题本身不包含明确的地域信息,但答案会因地域而异。例如,关于法律、日期格式或度量单位的问题。测试集覆盖多种语言,以便评估模型在不同语言之间的偏见。评估指标主要关注模型在不同地域下的回答分布,以及与真实地域分布的偏差程度。
🖼️ 关键图片
📊 实验亮点
实验结果表明,LLM普遍存在对美国地域的全局偏见,即使使用非英语语言提问。经过指令微调的模型,这种偏见会更加严重。此外,模型在同一语言的不同地域之间存在人口统计偏见,倾向于选择人口较多的地域。
🎯 应用场景
该研究成果可应用于评估和改进多语言LLM的公平性和地域适应性。通过LocQA测试,可以识别模型中存在的地域偏见,并指导模型的训练和微调,使其在处理跨文化信息时更加准确和公正。这对于构建全球化的AI系统至关重要。
📄 摘要(原文)
Multilingual large language models (LLMs) have minimized the fluency gap between languages. This advancement, however, exposes models to the risk of biased behavior, as knowledge and norms may propagate across languages. In this work, we aim to quantify models' inter- and intra-lingual biases, via their ability to answer locale-ambiguous questions. To this end, we present LocQA, a test set containing 2,156 questions in 12 languages, referring to various locale-dependent facts such as laws, dates, and measurements. The questions do not contain indications of the locales they relate to, other than the querying language itself. LLMs' responses to LocQA locale-ambiguous questions thus reveal models' implicit priors. We used LocQA to evaluate 32 models, and detected two types of structural biases. Inter-lingually, we show a global bias towards answers relevant to the US-locale, even when models are asked in languages other than English. Moreover, we discovered that this global bias is exacerbated in models that underwent instruction tuning, compared to their base counterparts. Intra-lingually, we show that when multiple locales are relevant for the same language, models act as demographic probability engines, prioritizing locales with larger populations. Taken together, insights from LocQA may help in shaping LLMs' desired local behavior, and in quantifying the impact of various training phases on different kinds of biases.