DEPART: DEcomposing PARiTy across Multilingual LLMs

📄 arXiv: 2605.28163v1 📥 PDF

作者: Manan Uppadhyay, Prashant Kodali, Pranjal Chitale, Reshma Ramaprasad, Himanshu Beniwal, Sunayana Sitaram

分类: cs.CL, cs.AI

发布日期: 2026-05-27


💡 一句话要点

DEPART:解构多语言LLM中的奇偶性差异,揭示性能差异的根本原因。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多语言LLM 性能差异 方差分解 贝叶斯分层模型 语言特征 模型评估 可解释性 语言偏差

📋 核心要点

  1. 现有mLLM评估缺乏对跨语言性能差异的深入解释,无法有效解决潜在的系统性偏差。
  2. DEPART框架通过贝叶斯分层模型,将多语言性能方差分解为语言特征、模型和基准等可解释的成分。
  3. 实验表明,语言特征显著影响性能,模型与英语的相似性是关键预测因子,且NLU和推理任务的方差分布存在差异。

📝 摘要(中文)

多语言大型语言模型(mLLM)的排行榜通常只报告每种语言的准确率,但很少解释差异产生的原因,导致系统性偏差无法归因,从业者也无法采取有效措施。本文首先通过无分布的Friedman和Kruskal-Wallis检验,证实这些差距是系统性的,而非抽样噪声的产物。然后,引入一个两步贝叶斯分层框架,将多语言性能方差分解为可解释的组成部分。首先,隔离由语言身份引起的方差,结果表明,可观察的语言特征(脚本、语系、类型学距离)可以解释理解任务中79%的方差,以及推理任务中92%的方差,并且模型内部表征与英语的相似性成为这两个任务中最主要的预测因子。其次,分解完整的(模型×基准×语言)立方体,发现NLU和推理具有根本不同的方差分布:模型身份主导理解(66.7%的方差),而基准×模型交互主导推理(46.3%)。总之,这些结果将多语言评估从被动的性能映射转变为可解释的诊断框架,为解决语言差异的根本驱动因素提供了具体的手段。

🔬 方法详解

问题定义:现有的多语言大语言模型(mLLM)评估方法主要关注于报告各个语言上的性能指标,但缺乏对不同语言之间性能差异原因的深入分析。这种不足使得研究人员和从业者难以理解和解决mLLM中存在的语言偏差问题,也无法有效地改进模型在特定语言上的表现。现有方法无法解释这些差异是由于语言本身的特性、模型的设计还是评估基准造成的。

核心思路:本文的核心思路是将多语言性能的方差分解为多个可解释的成分,从而揭示导致语言差异的根本原因。通过构建一个贝叶斯分层模型,可以将总方差分解为由语言特征、模型本身以及评估基准等因素引起的方差。这种分解方法使得研究人员可以量化每个因素对性能差异的贡献,并识别出影响模型性能的关键因素。

技术框架:DEPART框架包含两个主要步骤:第一步,隔离由语言身份引起的方差,并使用可观察的语言特征(如脚本、语系、类型学距离)来解释这些方差。第二步,分解完整的(模型×基准×语言)立方体,以分析不同因素(模型、基准、语言)之间的交互作用对性能的影响。该框架使用贝叶斯分层模型进行方差分解,并采用Friedman和Kruskal-Wallis检验来验证性能差异的显著性。

关键创新:该论文的关键创新在于提出了一个可解释的框架,用于分析多语言LLM的性能差异。与传统的性能评估方法不同,DEPART框架不仅关注性能指标,更关注性能差异的原因。通过方差分解,该框架可以揭示语言特征、模型设计和评估基准对性能的影响,从而为改进mLLM提供有价值的指导。此外,发现模型内部表征与英语的相似性是影响多语言性能的关键因素,这为未来的模型设计提供了新的思路。

关键设计:DEPART框架的关键设计包括:1) 使用贝叶斯分层模型进行方差分解,这使得可以同时考虑多个因素对性能的影响;2) 采用可观察的语言特征(如脚本、语系、类型学距离)来解释语言差异,这使得结果更易于理解和应用;3) 分析模型内部表征与英语的相似性,这揭示了模型设计中可能存在的偏差;4) 使用Friedman和Kruskal-Wallis检验来验证性能差异的显著性,确保结果的可靠性。

📊 实验亮点

实验结果表明,可观察的语言特征可以解释理解任务中79%的方差,以及推理任务中92%的方差。模型内部表征与英语的相似性是影响多语言性能的关键因素。此外,NLU和推理任务的方差分布存在显著差异,模型身份主导理解任务(66.7%的方差),而基准×模型交互主导推理任务(46.3%)。

🎯 应用场景

该研究成果可应用于多语言大语言模型的开发和评估。通过DEPART框架,开发者可以更好地理解模型在不同语言上的表现差异,并针对性地改进模型设计,减少语言偏差。此外,该框架还可以用于评估不同mLLM的性能,并选择最适合特定应用场景的模型。该研究有助于推动多语言自然语言处理技术的发展,促进跨语言交流和理解。

📄 摘要(原文)

Multilingual Large Language Models (mLLMs) leaderboards report per-language accuracy but rarely explain why disparities emerge, leaving systemic biases unattributed and offering practitioners no actionable levers. We first establish that these gaps are systematic rather than artifacts of sampling noise via distribution-free Friedman and Kruskal--Wallis tests, then introduce a two-step Bayesian hierarchical framework that decomposes multilingual performance variance into interpretable components. First, isolating the variance attributable to language identity, we show that observable language features (script, family, typological distance) explain $R^2_{\text{ling}} = 79\%$ of this variance on understanding tasks and $92\%$ on reasoning, with a model's internal representational similarity to English emerging as the dominant predictor across both task buckets. Second, decomposing the full (model$\times$benchmark$\times$language) cube, we find that NLU and reasoning have fundamentally divergent variance profiles: model identity dominates understanding ($66.7\%$ of variance), whereas the benchmark$\times$model interaction dominates reasoning ($46.3\%$). Together these results recast multilingual evaluation from passive performance mapping into an explainable, diagnostic framework with concrete levers for targeting the root drivers of language disparity.