All Languages Matter: Understanding and Mitigating Language Bias in Multilingual RAG

📄 arXiv: 2604.20199v1 📥 PDF

作者: Dan Wang, Guozhao Mo, Yafei Shi, Cheng Zhang, Bo Zheng, Boxi Cao, Xuanang Chen, Yaojie Lu, Hongyu Lin, Ben He, Xianpei Han, Le Sun

分类: cs.CL

发布日期: 2026-04-22

备注: ACL 2026 main conference


💡 一句话要点

提出LAURA以解决多语言RAG中存在的语言偏见问题,提升跨语言检索增强生成性能。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多语言RAG 语言偏见 重排序 跨语言信息检索 检索增强生成

📋 核心要点

  1. 现有mRAG系统在重排序时存在语言偏见,倾向于英语和查询语言,导致性能下降。
  2. 论文提出LAURA,通过对齐多语言证据排序与下游生成效用,缓解语言偏见。
  3. 实验表明,LAURA在多种语言和生成模型上均能有效提升mRAG性能。

📝 摘要(中文)

多语言检索增强生成(mRAG)利用跨语言证据来增强大型语言模型(LLM)的全局知识。然而,我们发现当前的mRAG系统在重排序阶段存在语言偏见,系统性地偏向英语和查询的本地语言。通过引入估计的oracle证据分析,我们量化了现有重排序器与可实现的上限之间的显著性能差距。进一步的分析表明,存在一个关键的分布不匹配:虽然最佳预测需要分散在多种语言中的证据,但当前的系统系统性地抑制了这种“答案关键”的文档,从而限制了下游生成性能。为了弥合这一差距,我们提出了 extit{ extbf{L}anguage- extbf{A}gnostic extbf{U}tility-driven extbf{R}eranker extbf{A}lignment (LAURA)},它将多语言证据排序与下游生成效用对齐。在多种语言和生成模型上的实验表明,LAURA有效地缓解了语言偏见,并持续提高了mRAG的性能。

🔬 方法详解

问题定义:论文旨在解决多语言检索增强生成(mRAG)系统中存在的语言偏见问题。现有mRAG系统在对检索到的文档进行重排序时,会系统性地偏向英语和查询的本地语言,导致关键的跨语言证据被抑制,最终影响下游生成任务的性能。这种语言偏见使得系统无法充分利用全球知识,限制了mRAG的潜力。

核心思路:论文的核心思路是将多语言证据的排序与下游生成任务的效用对齐。这意味着重排序器应该优先选择那些能够最大化下游生成质量的文档,而不仅仅是那些与查询语言或英语相关的文档。通过这种方式,可以缓解语言偏见,使系统能够更好地利用来自不同语言的证据。

技术框架:LAURA (Language-Agnostic Utility-driven Reranker Alignment) 的整体框架包括以下几个关键步骤:首先,使用现有的检索模型检索多语言文档。然后,LAURA对这些文档进行重排序,其目标是最大化下游生成模型的性能。重排序后的文档被输入到生成模型中,生成最终的答案。LAURA的关键在于其训练过程,它通过优化一个特定的损失函数来对齐重排序器的排序结果与下游生成模型的效用。

关键创新:LAURA最重要的技术创新点在于其损失函数的设计,该损失函数旨在直接优化重排序器对下游生成任务的影响。与传统的重排序方法不同,LAURA不依赖于人工标注的相关性标签,而是通过评估不同排序结果对生成质量的影响来学习。这种方法能够更有效地缓解语言偏见,并提高mRAG系统的整体性能。

关键设计:LAURA的关键设计在于其损失函数。具体来说,LAURA使用一个基于强化学习的损失函数,该函数奖励那些能够提高下游生成模型性能的排序结果,并惩罚那些降低性能的排序结果。此外,LAURA还可能使用一些正则化技术来防止过拟合,并提高模型的泛化能力。具体的参数设置和网络结构可能依赖于所使用的重排序模型和生成模型。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,LAURA能够有效缓解mRAG系统中的语言偏见,并在多种语言和生成模型上持续提高性能。具体而言,LAURA在下游生成任务上的性能优于现有的重排序方法,并且能够更好地利用来自不同语言的证据。论文通过估计的oracle证据分析,量化了现有重排序器与可实现的上限之间的性能差距,进一步证明了LAURA的有效性。

🎯 应用场景

该研究成果可应用于多语言问答系统、跨语言信息检索、机器翻译等领域。通过缓解语言偏见,LAURA能够提升这些应用在处理多语言信息时的准确性和可靠性,促进全球知识的共享和利用,具有重要的实际价值和深远影响。

📄 摘要(原文)

Multilingual Retrieval-Augmented Generation (mRAG) leverages cross-lingual evidence to ground Large Language Models (LLMs) in global knowledge. However, we show that current mRAG systems suffer from a language bias during reranking, systematically favoring English and the query's native language. By introducing an estimated oracle evidence analysis, we quantify a substantial performance gap between existing rerankers and the achievable upper bound. Further analysis reveals a critical distributional mismatch: while optimal predictions require evidence scattered across multiple languages, current systems systematically suppress such ``answer-critical'' documents, thereby limiting downstream generation performance. To bridge this gap, we propose \textit{\textbf{L}anguage-\textbf{A}gnostic \textbf{U}tility-driven \textbf{R}eranker \textbf{A}lignment (LAURA)}, which aligns multilingual evidence ranking with downstream generative utility. Experiments across diverse languages and generation models show that LAURA effectively mitigates language bias and consistently improves mRAG performance.