MIRAGE-Bench: Automatic Multilingual Benchmark Arena for Retrieval-Augmented Generation Systems

作者: Nandan Thakur, Suleman Kazi, Ge Luo, Jimmy Lin, Amin Ahmad

分类: cs.CL, cs.AI

发布日期: 2024-10-17 (更新: 2025-03-29)

备注: Accepted at NAACL 2025 (Main Conference)

🔗 代码/项目: GITHUB

💡 一句话要点

提出MIRAGE-Bench，用于自动评估多语言检索增强生成系统的基准测试平台。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 检索增强生成 多语言评估 基准测试 大型语言模型 代理裁判

📋 核心要点

现有RAG基准测试依赖人工标注或昂贵的LLM裁判，成本高昂且效率低下。
论文提出训练一个代理裁判，利用启发式指标预测LLM裁判的判断，降低评估成本。
构建了MIRAGE-Bench，一个包含18种语言的RAG基准，实验表明代理裁判与GPT-4o裁判高度相关。

📝 摘要（中文）

传统的检索增强生成(RAG)基准测试使用基于启发式指标评估系统，但这些指标需要人工偏好作为参考真值。相比之下，基于竞技场的基准测试，系统相互竞争，需要昂贵的大型语言模型(LLM)作为裁判才能进行可靠的评估。我们提出了一种简单高效的技术，结合了两者的优点。其思想是训练一个代理裁判，使用启发式指标作为输入，输出LLM作为裁判的预测。在我们的工作中，我们开发了MIRAGE-Bench，这是一个合成的、基于竞技场的RAG基准测试，针对维基百科上的18种不同语言，专注于多语言答案生成评估。它广泛地将启发式特征和LLM作为裁判进行评估。我们对19个多语言LLM进行了基准测试，并观察到使用我们的代理裁判和使用Bradley-Terry框架的GPT-4o作为教师之间存在高度相关性(Kendall Tau ($τ$) = 0.909)。我们的结果表明，专有和大型开源LLM目前在MIRAGE-Bench上占据主导地位。我们的代码和数据集已在此处公开发布：https://github.com/vectara/mirage-bench。

🔬 方法详解

问题定义：论文旨在解决多语言RAG系统评估的问题。现有方法要么依赖于人工标注，成本高昂；要么直接使用大型LLM作为裁判，计算资源消耗巨大，且难以复现。这两种方法都限制了多语言RAG系统的快速迭代和发展。

核心思路：论文的核心思路是训练一个代理裁判（surrogate judge），该裁判以启发式指标（如BLEU、ROUGE等）作为输入，预测大型LLM裁判的判断结果。这样，就可以在不需要昂贵LLM裁判的情况下，快速评估RAG系统的性能。

技术框架：MIRAGE-Bench的整体框架包括以下几个主要步骤：1) 构建多语言数据集，基于维基百科生成问题和答案；2) 使用不同的RAG系统生成答案；3) 使用启发式指标评估生成的答案；4) 使用大型LLM（如GPT-4o）作为裁判，对生成的答案进行排序；5) 使用启发式指标作为输入，LLM裁判的排序结果作为标签，训练代理裁判；6) 使用训练好的代理裁判评估新的RAG系统。

关键创新：该论文的关键创新在于提出了使用代理裁判来模拟LLM裁判的思想。这种方法有效地降低了RAG系统评估的成本，同时保持了评估的准确性。此外，MIRAGE-Bench是一个多语言的基准测试，可以促进多语言RAG系统的发展。

关键设计：论文中，启发式指标的选择和代理裁判模型的选择是关键设计。启发式指标需要能够有效反映答案的质量，代理裁判模型需要能够准确预测LLM裁判的判断。论文使用了多种启发式指标，并选择了合适的模型结构（具体模型结构未知）进行训练。此外，论文还使用了Bradley-Terry模型来评估不同LLM的性能。

🖼️ 关键图片

📊 实验亮点

实验结果表明，使用代理裁判与使用GPT-4o作为裁判之间存在高度相关性(Kendall Tau ($τ$) = 0.909)。这表明代理裁判可以有效地模拟LLM裁判的判断，从而降低评估成本。此外，实验还对19个多语言LLM进行了基准测试，结果显示专有和大型开源LLM在MIRAGE-Bench上表现优异。

🎯 应用场景

该研究成果可应用于多语言信息检索、机器翻译、问答系统等领域。MIRAGE-Bench作为一个公开的基准测试平台，可以促进多语言RAG系统的研究和发展，加速相关技术的落地应用。未来，可以进一步扩展MIRAGE-Bench的语言种类和评估指标，使其更具通用性和实用性。

📄 摘要（原文）

Traditional retrieval-augmented generation (RAG) benchmarks evaluate systems using heuristic-based metrics, but these require human preferences as the ground truth for reference. In contrast, arena-based benchmarks, where systems compete against each other, require an expensive large language model (LLM) as a judge for a reliable evaluation. We present a simple efficient technique to combine the best of both worlds. The idea is to train a surrogate judge using heuristic metrics as input, to output the LLM as a judge prediction. In our work, we develop MIRAGE-Bench, a synthetic arena-based RAG benchmark for 18 diverse languages on Wikipedia focused on multilingual answer generation evaluation. It extensively couples both heuristic features and LLM as a judge for evaluation. We benchmark 19 multilingual LLMs, and observe a high correlation (Kendall Tau ($τ$) = 0.909) using our surrogate judge and between GPT-4o as a teacher using the Bradley-Terry framework. Our results show proprietary and large open-source LLMs currently dominate on MIRAGE-Bench. Our code and datasets are made publicly available here: https://github.com/vectara/mirage-bench.

MIRAGE-Bench: Automatic Multilingual Benchmark Arena for Retrieval-Augmented Generation Systems

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理