Towards Reliable Multilingual LLMs-as-a-Judge: An Empirical Study
作者: Irune Zubiaga, Aitor Soroa, Rodrigo Agerri
分类: cs.CL, cs.AI
发布日期: 2026-05-27
💡 一句话要点
研究多语言LLM作为评估器的可靠性,探索不同资源下的优化策略。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多语言LLM 文本评估 低资源语言 指令翻译 领域自适应
📋 核心要点
- 现有基于LLM的文本评估方法主要集中于英语,缺乏对多语言环境,特别是低资源语言的有效支持。
- 本文探索了在不同资源条件下,构建可靠的多语言LLM评估器的策略,包括指令翻译、监督方式和模型大小等。
- 实验表明,领域内数据充足时,微调小型模型可媲美专有模型;零样本评估在大模型上更适合领域外场景。
📝 摘要(中文)
大型语言模型(LLMs)越来越多地被用于自动评估生成的文本,但现有工作主要集中在英语上。尽管对多语言评估的需求日益增长,但将基于LLM的评估器扩展到多语言环境仍然具有挑战性,尤其是在低资源语言和领域内数据稀缺的情况下。本文探讨了开发多语言LLM作为评估器的几种策略,考虑了领域内数据是否可用于微调。我们系统地分析了英语、西班牙语和巴斯克语,分别代表高、中、低资源语言,考虑了指令翻译、单语与多语监督以及模型大小。为了评估,我们将两个现有的元评估数据集扩展到巴斯克语和西班牙语。我们的结果揭示了关键的权衡:当领域内数据可用时,微调后的小型模型可以达到与专有模型相当的性能,而使用大型模型进行零样本评估在领域外设置中更有效。我们还观察到,在领域外数据上进行微调可能会对模型性能产生不利影响。这些发现为构建高效、可靠的多语言评估管道提供了实践指导。数据和代码已公开发布在hitz-zentroa/mJudge。
🔬 方法详解
问题定义:论文旨在解决多语言环境下,特别是低资源语言场景下,如何利用LLM进行可靠的文本生成质量评估的问题。现有方法主要集中在英语上,缺乏对其他语言的有效支持,尤其是在领域内数据稀缺的情况下,评估性能会显著下降。
核心思路:论文的核心思路是系统性地研究不同策略对多语言LLM评估器性能的影响,包括指令翻译、单语与多语监督、模型大小以及领域内/外数据的微调。通过对比不同策略在不同资源语言上的表现,找到在特定场景下最优的评估器构建方法。
技术框架:论文的技术框架主要包括以下几个步骤:1) 选择代表不同资源水平的语言(英语、西班牙语、巴斯克语);2) 扩展现有的元评估数据集到巴斯克语和西班牙语;3) 探索不同的训练策略,包括指令翻译、单语/多语监督、不同大小的模型;4) 在扩展后的数据集上评估不同策略的性能;5) 分析实验结果,总结不同策略的优缺点和适用场景。
关键创新:论文的关键创新在于对多语言LLM评估器进行了全面的实证研究,系统地分析了多种因素对评估性能的影响,并针对不同资源条件提出了实用的优化策略。此外,论文还将现有的元评估数据集扩展到了巴斯克语和西班牙语,为多语言评估研究提供了新的资源。
关键设计:论文的关键设计包括:1) 针对不同语言的指令翻译策略,确保LLM能够理解评估任务;2) 对比单语和多语监督的训练效果,探索多语训练的优势;3) 考察不同模型大小对评估性能的影响,寻找性能与效率之间的平衡;4) 分析领域内和领域外数据微调的效果,避免负迁移现象。
🖼️ 关键图片
📊 实验亮点
实验结果表明,当领域内数据可用时,微调后的小型模型可以达到与专有模型相当的性能。在领域外设置中,使用大型模型进行零样本评估更有效。此外,研究发现,在领域外数据上进行微调可能会对模型性能产生不利影响。这些发现为构建高效、可靠的多语言评估管道提供了实践指导。
🎯 应用场景
该研究成果可应用于多语言文本生成系统的自动评估,例如机器翻译、文本摘要、对话系统等。通过构建高效、可靠的多语言评估管道,可以降低人工评估的成本,提高开发效率,并促进多语言自然语言处理技术的发展。该研究对低资源语言的文本生成质量评估具有重要意义。
📄 摘要(原文)
Large language models (LLMs) are increasingly used for the automatic evaluation of generated text, yet most prior work focuses on English. Despite the growing demand for multilingual evaluation, extending LLM-based evaluators to multilingual settings remains challenging, particularly for low-resource languages and scenarios where in-domain data is scarce. This work explores several strategies for developing multilingual LLMs-as-a-judge, considering whether in-domain data is available for fine-tuning or not. We systematically analyze English, Spanish, and Basque, representing high-, mid-, and low-resource languages, considering instruction translation, monolingual versus multilingual supervision, and model size. For evaluation, we extend two existing meta-evaluation datasets to Basque and Spanish. Our results reveal key trade-offs: When in-domain data is available, fine-tuned smaller models can achieve performance comparable to proprietary models, whereas zero-shot evaluation with larger models proves more effective in out-of-domain settings. We also observe that fine-tuning on out-of-domain data can adversely affect model performance. These findings provide practical guidance for building efficient, reliable multilingual evaluation pipelines. The data and code are publicly available at hitz-zentroa/mJudge.