Towards Reliable Multilingual LLMs-as-a-Judge: An Empirical Study

作者: Irune Zubiaga, Aitor Soroa, Rodrigo Agerri

分类: cs.CL, cs.AI

发布日期: 2026-05-27

💡 一句话要点

研究多语言LLM作为评估器的可靠性，探索不同资源下的优化策略。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多语言LLM 文本评估 低资源语言 指令翻译 领域自适应

📋 核心要点

现有基于LLM的文本评估方法主要集中于英语，缺乏对多语言环境，特别是低资源语言的有效支持。
本文探索了在不同资源条件下，构建可靠的多语言LLM评估器的策略，包括指令翻译、监督方式和模型大小等。
实验表明，领域内数据充足时，微调小型模型可媲美专有模型；零样本评估在大模型上更适合领域外场景。

📝 摘要（中文）

大型语言模型（LLMs）越来越多地被用于自动评估生成的文本，但现有工作主要集中在英语上。尽管对多语言评估的需求日益增长，但将基于LLM的评估器扩展到多语言环境仍然具有挑战性，尤其是在低资源语言和领域内数据稀缺的情况下。本文探讨了开发多语言LLM作为评估器的几种策略，考虑了领域内数据是否可用于微调。我们系统地分析了英语、西班牙语和巴斯克语，分别代表高、中、低资源语言，考虑了指令翻译、单语与多语监督以及模型大小。为了评估，我们将两个现有的元评估数据集扩展到巴斯克语和西班牙语。我们的结果揭示了关键的权衡：当领域内数据可用时，微调后的小型模型可以达到与专有模型相当的性能，而使用大型模型进行零样本评估在领域外设置中更有效。我们还观察到，在领域外数据上进行微调可能会对模型性能产生不利影响。这些发现为构建高效、可靠的多语言评估管道提供了实践指导。数据和代码已公开发布在hitz-zentroa/mJudge。

🔬 方法详解

问题定义：论文旨在解决多语言环境下，特别是低资源语言场景下，如何利用LLM进行可靠的文本生成质量评估的问题。现有方法主要集中在英语上，缺乏对其他语言的有效支持，尤其是在领域内数据稀缺的情况下，评估性能会显著下降。

核心思路：论文的核心思路是系统性地研究不同策略对多语言LLM评估器性能的影响，包括指令翻译、单语与多语监督、模型大小以及领域内/外数据的微调。通过对比不同策略在不同资源语言上的表现，找到在特定场景下最优的评估器构建方法。

技术框架：论文的技术框架主要包括以下几个步骤：1) 选择代表不同资源水平的语言（英语、西班牙语、巴斯克语）；2) 扩展现有的元评估数据集到巴斯克语和西班牙语；3) 探索不同的训练策略，包括指令翻译、单语/多语监督、不同大小的模型；4) 在扩展后的数据集上评估不同策略的性能；5) 分析实验结果，总结不同策略的优缺点和适用场景。

关键创新：论文的关键创新在于对多语言LLM评估器进行了全面的实证研究，系统地分析了多种因素对评估性能的影响，并针对不同资源条件提出了实用的优化策略。此外，论文还将现有的元评估数据集扩展到了巴斯克语和西班牙语，为多语言评估研究提供了新的资源。

关键设计：论文的关键设计包括：1) 针对不同语言的指令翻译策略，确保LLM能够理解评估任务；2) 对比单语和多语监督的训练效果，探索多语训练的优势；3) 考察不同模型大小对评估性能的影响，寻找性能与效率之间的平衡；4) 分析领域内和领域外数据微调的效果，避免负迁移现象。

🖼️ 关键图片

📊 实验亮点

实验结果表明，当领域内数据可用时，微调后的小型模型可以达到与专有模型相当的性能。在领域外设置中，使用大型模型进行零样本评估更有效。此外，研究发现，在领域外数据上进行微调可能会对模型性能产生不利影响。这些发现为构建高效、可靠的多语言评估管道提供了实践指导。

🎯 应用场景

该研究成果可应用于多语言文本生成系统的自动评估，例如机器翻译、文本摘要、对话系统等。通过构建高效、可靠的多语言评估管道，可以降低人工评估的成本，提高开发效率，并促进多语言自然语言处理技术的发展。该研究对低资源语言的文本生成质量评估具有重要意义。

📄 摘要（原文）

Large language models (LLMs) are increasingly used for the automatic evaluation of generated text, yet most prior work focuses on English. Despite the growing demand for multilingual evaluation, extending LLM-based evaluators to multilingual settings remains challenging, particularly for low-resource languages and scenarios where in-domain data is scarce. This work explores several strategies for developing multilingual LLMs-as-a-judge, considering whether in-domain data is available for fine-tuning or not. We systematically analyze English, Spanish, and Basque, representing high-, mid-, and low-resource languages, considering instruction translation, monolingual versus multilingual supervision, and model size. For evaluation, we extend two existing meta-evaluation datasets to Basque and Spanish. Our results reveal key trade-offs: When in-domain data is available, fine-tuned smaller models can achieve performance comparable to proprietary models, whereas zero-shot evaluation with larger models proves more effective in out-of-domain settings. We also observe that fine-tuning on out-of-domain data can adversely affect model performance. These findings provide practical guidance for building efficient, reliable multilingual evaluation pipelines. The data and code are publicly available at hitz-zentroa/mJudge.

Towards Reliable Multilingual LLMs-as-a-Judge: An Empirical Study

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理