Language Bias under Conflicting Information in Multilingual LLMs

📄 arXiv: 2604.07123v1 📥 PDF

作者: Robert Östling, Murathan Kurfalı

分类: cs.CL

发布日期: 2026-04-08


💡 一句话要点

揭示多语言LLM在冲突信息处理中存在的语言偏见,尤其对俄语和中文存在显著倾向。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多语言LLM 语言偏见 冲突信息 大海捞针 自然语言处理

📋 核心要点

  1. 现有研究表明LLM在处理冲突信息时存在偏见,但缺乏对不同语言信息源之间偏见的系统性研究。
  2. 该研究扩展了“大海捞针”范式,构建多语言冲突信息数据集,用于评估LLM的语言偏见。
  3. 实验结果揭示了LLM在处理冲突信息时存在显著的语言偏见,尤其对俄语存在负面偏见,对中文存在正面偏见。

📝 摘要(中文)

大型语言模型(LLM)在整合冲突信息以回答问题时,已被证明存在偏见。本文探讨了这种偏见是否也存在于不同语言的信息源之间。为此,我们将“大海捞针”范式扩展到多语言环境,并使用五种不同语言的真实新闻领域数据,对一系列不同规模的多语言LLM进行了全面的评估。结果表明,所有测试的LLM,包括GPT-5.2,在绝大多数情况下都忽略了冲突,并自信地断言其中一种可能的答案。此外,模型之间存在一致的语言偏好,普遍存在对俄语的偏见,并且在最长的上下文长度下,偏向于中文。这些模式在在中国大陆境内和境外训练的模型之间是一致的,尽管前者略强。

🔬 方法详解

问题定义:论文旨在研究多语言LLM在处理包含冲突信息时,是否存在对特定语言的偏见。现有方法主要关注LLM在单语环境下的偏见,忽略了多语言环境下不同语言信息源可能带来的影响。这种忽略可能导致LLM在实际应用中,对某些语言的信息给予过高或过低的权重,从而影响其判断的准确性。

核心思路:论文的核心思路是将“大海捞针”范式扩展到多语言环境。具体来说,就是构造包含冲突信息的多语言文本,其中关键信息(“针”)以不同的语言呈现,然后观察LLM在回答问题时,更倾向于采纳哪种语言的信息。通过分析LLM对不同语言信息的选择倾向,可以揭示其潜在的语言偏见。

技术框架:该研究的技术框架主要包括以下几个步骤:1) 构建多语言冲突信息数据集:从新闻领域收集数据,并将其翻译成五种不同的语言(包括英语、中文、俄语等)。2) 设计实验范式:采用“大海捞针”范式,将冲突信息嵌入到长文本中,并以不同的语言呈现。3) 选择LLM进行评估:选择一系列不同规模的多语言LLM,包括GPT-5.2等。4) 分析实验结果:分析LLM在回答问题时,对不同语言信息的选择倾向,并统计其语言偏见。

关键创新:该研究的关键创新在于将“大海捞针”范式扩展到多语言环境,从而能够系统性地研究LLM在处理冲突信息时存在的语言偏见。此外,该研究还使用了真实的新闻领域数据,使得实验结果更具实际意义。

关键设计:在数据集构建方面,论文使用了真实的新闻领域数据,并将其翻译成五种不同的语言,以保证数据的真实性和多样性。在实验设计方面,论文采用了“大海捞针”范式,并将冲突信息嵌入到长文本中,以模拟真实的应用场景。在模型选择方面,论文选择了一系列不同规模的多语言LLM,以保证实验结果的可靠性。

📊 实验亮点

实验结果表明,所有测试的LLM都存在语言偏见,普遍存在对俄语的负面偏见,以及在长文本中对中文的正面偏见。这种偏见在不同模型之间具有一致性,并且在中国大陆境内训练的模型中表现得更为明显。例如,GPT-5.2在处理包含俄语冲突信息的文本时,更倾向于忽略俄语信息,而选择其他语言的信息。

🎯 应用场景

该研究成果可应用于提升多语言LLM的公平性和可靠性,尤其是在信息检索、机器翻译和跨语言问答等领域。通过消除语言偏见,可以使LLM更好地服务于不同语言背景的用户,并避免因语言偏见而产生的不良后果。未来的研究可以进一步探索如何减轻或消除LLM中的语言偏见。

📄 摘要(原文)

Large Language Models (LLMs) have been shown to contain biases in the process of integrating conflicting information when answering questions. Here we ask whether such biases also exist with respect to which language is used for each conflicting piece of information. To answer this question, we extend the conflicting needles in a haystack paradigm to a multilingual setting and perform a comprehensive set of evaluations with naturalistic news domain data in five different languages, for a range of multilingual LLMs of different sizes. We find that all LLMs tested, including GPT-5.2, ignore the conflict and confidently assert only one of the possible answers in the large majority of cases. Furthermore, there is a consistent bias across models in which languages are preferred, with a general bias against Russian and, for the longest context lengths, in favor of Chinese. Both of these patterns are consistent between models trained inside and outside of mainland China, though somewhat stronger in the former category.