Lost in Translation: Do LVLM Judges Generalize Across Languages?

📄 arXiv: 2604.19405v1 📥 PDF

作者: Md Tahmid Rahman Laskar, Mohammed Saidul Islam, Mir Tafseer Nayeem, Amran Bhuiyan, Mizanur Rahman, Shafiq Joty, Enamul Hoque, Jimmy Huang

分类: cs.CL

发布日期: 2026-04-21

备注: Accepted at ACL 2026 Findings


💡 一句话要点

提出MM-JudgeBench,评估LVLM评判模型在多语言环境下的泛化能力。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多语言评估 视觉语言模型 奖励模型 多模态学习 跨语言泛化

📋 核心要点

  1. 现有LVLM评判模型主要基于英语数据集评估,缺乏对多语言泛化能力的考察。
  2. 构建大规模多语言多模态基准MM-JudgeBench,包含通用视觉语言和图表推理两个子集。
  3. 实验表明,现有LVLM评判模型在不同语言间表现差异大,模型大小和架构与多语言鲁棒性关联弱。

📝 摘要(中文)

奖励模型等自动评估器在大型视觉语言模型(LVLM)的对齐和评估中起着核心作用。尽管它们的重要性日益增加,但这些评估器几乎完全在以英语为中心的基准上进行评估,这使得这些评估器在不同语言之间的泛化能力成为一个悬而未决的问题。为了回答这个问题,我们引入了MM-JudgeBench,这是第一个用于多语言和多模态评判模型评估的大规模基准,它包括超过6万个跨越25种类型学上不同的语言的成对偏好实例。MM-JudgeBench集成了两个互补的子集:一个扩展VL-RewardBench的通用视觉语言偏好评估子集,以及一个源自OpenCQA的以图表为中心的视觉文本推理子集,从而能够系统地分析不同设置下的奖励模型(即LVLM评判器)。我们还发布了一个源自MM-RewardBench的多语言训练集,与我们的评估数据不相交,以支持领域自适应。通过评估22个LVLM(15个开源,7个专有),我们发现我们提出的基准中存在显著的跨语言性能差异。我们的分析进一步表明,模型大小和架构不能很好地预测多语言鲁棒性,即使是最先进的LVLM评判器在不同语言中也表现出不一致的行为。总之,这些发现揭示了当前奖励模型的基本局限性,并强调了多语言、多模态基准对于开发可靠的自动评估器的必要性。

🔬 方法详解

问题定义:现有的大型视觉语言模型(LVLM)的评判模型,例如奖励模型,在对齐和评估LVLM时起着关键作用。然而,这些评判模型几乎都是在以英语为中心的基准上进行评估的,这使得它们在不同语言环境下的泛化能力未知。因此,需要一个多语言的基准来评估这些评判模型在不同语言下的表现,并发现其潜在的局限性。

核心思路:论文的核心思路是构建一个大规模的多语言多模态基准MM-JudgeBench,用于评估LVLM评判模型在不同语言下的泛化能力。通过该基准,可以系统地分析评判模型在不同语言和任务上的表现,从而发现其潜在的局限性,并为未来的研究提供指导。

技术框架:MM-JudgeBench包含两个互补的子集:一个是通用视觉语言偏好评估子集,扩展自VL-RewardBench;另一个是以图表为中心的视觉文本推理子集,源自OpenCQA。此外,论文还提供了一个多语言训练集,源自MM-RewardBench,用于支持领域自适应。通过这些数据集,可以全面评估LVLM评判模型在多语言环境下的表现。

关键创新:该论文的主要创新在于构建了第一个大规模的多语言多模态LVLM评判模型评估基准MM-JudgeBench。该基准覆盖了25种类型学上不同的语言,并包含了通用视觉语言和图表推理两个任务,能够全面评估LVLM评判模型在多语言环境下的泛化能力。与以往主要基于英语的评估相比,该基准能够更真实地反映评判模型在实际应用中的表现。

关键设计:MM-JudgeBench的关键设计包括:1) 覆盖25种语言,保证了语言的多样性;2) 包含通用视觉语言和图表推理两个任务,保证了任务的多样性;3) 提供训练集和评估集,支持领域自适应;4) 采用成对偏好实例,便于评估评判模型的排序能力。此外,论文还评估了22个LVLM,包括15个开源模型和7个专有模型,从而能够更全面地了解现有LVLM评判模型的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,现有LVLM评判模型在MM-JudgeBench上表现出显著的跨语言性能差异。模型大小和架构与多语言鲁棒性关联较弱,即使是最先进的LVLM评判器在不同语言中也表现出不一致的行为。例如,某些模型在英语上的表现很好,但在其他语言上的表现却很差,这表明现有模型在多语言泛化方面存在局限性。

🎯 应用场景

该研究成果可应用于开发更可靠、更公平的多语言LVLM评判模型。这些模型能够更好地评估和对齐LVLM在不同语言环境下的表现,从而促进多语言AI应用的发展,例如多语言客服、跨文化交流和全球化教育等。此外,该基准的发布也将推动多语言多模态学习领域的研究。

📄 摘要(原文)

Automatic evaluators such as reward models play a central role in the alignment and evaluation of large vision-language models (LVLMs). Despite their growing importance, these evaluators are almost exclusively assessed on English-centric benchmarks, leaving open the question of how well these evaluators generalize across languages. To answer this question, we introduce MM-JudgeBench, the first large-scale benchmark for multilingual and multimodal judge model evaluation, which includes over 60K pairwise preference instances spanning 25 typologically diverse languages. MM-JudgeBench integrates two complementary subsets: a general vision-language preference evaluation subset extending VL-RewardBench, and a chart-centric visual-text reasoning subset derived from OpenCQA, enabling systematic analysis of reward models (i.e., LVLM judges) across diverse settings. We additionally release a multilingual training set derived from MM-RewardBench, disjoint from our evaluation data, to support domain adaptation. By evaluating 22 LVLMs (15 open-source, 7 proprietary), we uncover substantial cross-lingual performance variance in our proposed benchmark. Our analysis further shows that model size and architecture are poor predictors of multilingual robustness, and that even state-of-the-art LVLM judges exhibit inconsistent behavior across languages. Together, these findings expose fundamental limitations of current reward modeling and underscore the necessity of multilingual, multimodal benchmarks for developing reliable automated evaluators.