MIRAGE-Bench: Automatic Multilingual Benchmark Arena for Retrieval-Augmented Generation Systems
作者: Nandan Thakur, Suleman Kazi, Ge Luo, Jimmy Lin, Amin Ahmad
分类: cs.CL, cs.AI
发布日期: 2024-10-17 (更新: 2025-03-29)
备注: Accepted at NAACL 2025 (Main Conference)
🔗 代码/项目: GITHUB
💡 一句话要点
提出MIRAGE-Bench,用于自动评估多语言检索增强生成系统的基准测试平台。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 检索增强生成 多语言评估 基准测试 大型语言模型 代理裁判
📋 核心要点
- 现有RAG基准测试依赖人工标注或昂贵的LLM裁判,成本高昂且效率低下。
- 论文提出训练一个代理裁判,利用启发式指标预测LLM裁判的判断,降低评估成本。
- 构建了MIRAGE-Bench,一个包含18种语言的RAG基准,实验表明代理裁判与GPT-4o裁判高度相关。
📝 摘要(中文)
传统的检索增强生成(RAG)基准测试使用基于启发式指标评估系统,但这些指标需要人工偏好作为参考真值。相比之下,基于竞技场的基准测试,系统相互竞争,需要昂贵的大型语言模型(LLM)作为裁判才能进行可靠的评估。我们提出了一种简单高效的技术,结合了两者的优点。其思想是训练一个代理裁判,使用启发式指标作为输入,输出LLM作为裁判的预测。在我们的工作中,我们开发了MIRAGE-Bench,这是一个合成的、基于竞技场的RAG基准测试,针对维基百科上的18种不同语言,专注于多语言答案生成评估。它广泛地将启发式特征和LLM作为裁判进行评估。我们对19个多语言LLM进行了基准测试,并观察到使用我们的代理裁判和使用Bradley-Terry框架的GPT-4o作为教师之间存在高度相关性(Kendall Tau ($τ$) = 0.909)。我们的结果表明,专有和大型开源LLM目前在MIRAGE-Bench上占据主导地位。我们的代码和数据集已在此处公开发布:https://github.com/vectara/mirage-bench。
🔬 方法详解
问题定义:论文旨在解决多语言RAG系统评估的问题。现有方法要么依赖于人工标注,成本高昂;要么直接使用大型LLM作为裁判,计算资源消耗巨大,且难以复现。这两种方法都限制了多语言RAG系统的快速迭代和发展。
核心思路:论文的核心思路是训练一个代理裁判(surrogate judge),该裁判以启发式指标(如BLEU、ROUGE等)作为输入,预测大型LLM裁判的判断结果。这样,就可以在不需要昂贵LLM裁判的情况下,快速评估RAG系统的性能。
技术框架:MIRAGE-Bench的整体框架包括以下几个主要步骤:1) 构建多语言数据集,基于维基百科生成问题和答案;2) 使用不同的RAG系统生成答案;3) 使用启发式指标评估生成的答案;4) 使用大型LLM(如GPT-4o)作为裁判,对生成的答案进行排序;5) 使用启发式指标作为输入,LLM裁判的排序结果作为标签,训练代理裁判;6) 使用训练好的代理裁判评估新的RAG系统。
关键创新:该论文的关键创新在于提出了使用代理裁判来模拟LLM裁判的思想。这种方法有效地降低了RAG系统评估的成本,同时保持了评估的准确性。此外,MIRAGE-Bench是一个多语言的基准测试,可以促进多语言RAG系统的发展。
关键设计:论文中,启发式指标的选择和代理裁判模型的选择是关键设计。启发式指标需要能够有效反映答案的质量,代理裁判模型需要能够准确预测LLM裁判的判断。论文使用了多种启发式指标,并选择了合适的模型结构(具体模型结构未知)进行训练。此外,论文还使用了Bradley-Terry模型来评估不同LLM的性能。
🖼️ 关键图片
📊 实验亮点
实验结果表明,使用代理裁判与使用GPT-4o作为裁判之间存在高度相关性(Kendall Tau ($τ$) = 0.909)。这表明代理裁判可以有效地模拟LLM裁判的判断,从而降低评估成本。此外,实验还对19个多语言LLM进行了基准测试,结果显示专有和大型开源LLM在MIRAGE-Bench上表现优异。
🎯 应用场景
该研究成果可应用于多语言信息检索、机器翻译、问答系统等领域。MIRAGE-Bench作为一个公开的基准测试平台,可以促进多语言RAG系统的研究和发展,加速相关技术的落地应用。未来,可以进一步扩展MIRAGE-Bench的语言种类和评估指标,使其更具通用性和实用性。
📄 摘要(原文)
Traditional retrieval-augmented generation (RAG) benchmarks evaluate systems using heuristic-based metrics, but these require human preferences as the ground truth for reference. In contrast, arena-based benchmarks, where systems compete against each other, require an expensive large language model (LLM) as a judge for a reliable evaluation. We present a simple efficient technique to combine the best of both worlds. The idea is to train a surrogate judge using heuristic metrics as input, to output the LLM as a judge prediction. In our work, we develop MIRAGE-Bench, a synthetic arena-based RAG benchmark for 18 diverse languages on Wikipedia focused on multilingual answer generation evaluation. It extensively couples both heuristic features and LLM as a judge for evaluation. We benchmark 19 multilingual LLMs, and observe a high correlation (Kendall Tau ($τ$) = 0.909) using our surrogate judge and between GPT-4o as a teacher using the Bradley-Terry framework. Our results show proprietary and large open-source LLMs currently dominate on MIRAGE-Bench. Our code and datasets are made publicly available here: https://github.com/vectara/mirage-bench.