MTRAG-UN: A Benchmark for Open Challenges in Multi-Turn RAG Conversations

📄 arXiv: 2602.23184v1 📥 PDF

作者: Sara Rosenthal, Yannis Katsis, Vraj Shah, Lihong He, Lucian Popa, Marina Danilevsky

分类: cs.CL

发布日期: 2026-02-26

备注: 5 pages, 3 figures

🔗 代码/项目: GITHUB


💡 一句话要点

MTRAG-UN:多轮检索增强生成对话的开放挑战基准测试

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多轮对话 检索增强生成 RAG 基准测试 自然语言处理

📋 核心要点

  1. 现有RAG模型在处理多轮对话中存在挑战,尤其是在问题不明确、无法回答或依赖上下文时。
  2. MTRAG-UN基准旨在提供一个标准化的平台,用于评估和改进RAG模型在复杂多轮对话场景下的性能。
  3. 实验结果表明,现有模型在处理MTRAG-UN基准中的UNanswerable、UNderspecified等问题时表现不佳,有待提升。

📝 摘要(中文)

本文提出了MTRAG-UN,一个用于探索多轮检索增强生成(RAG)对话中开放挑战的基准测试,RAG是大语言模型的一种常用方式。我们发布了一个包含666个任务的基准,涵盖6个领域,包含超过2800轮对话以及相应的语料库。实验表明,检索和生成模型在处理包含UNanswerable(无法回答的)、UNderspecified(未明确的)、NONstandalone(非独立的)问题和UNclear(不清晰的)回答的对话时仍然存在困难。该基准可在https://github.com/IBM/mt-rag-benchmark获取。

🔬 方法详解

问题定义:论文旨在解决多轮对话场景下,检索增强生成(RAG)模型在处理复杂问题时遇到的困难。现有RAG模型在处理无法回答、未明确、非独立以及不清晰的对话时表现不佳,这限制了其在实际应用中的效果。这些问题源于多轮对话的上下文依赖性以及问题本身的复杂性。

核心思路:论文的核心思路是构建一个高质量的基准数据集,该数据集包含各种类型的复杂多轮对话,例如包含无法回答的问题、未明确的问题、非独立的问题以及不清晰的回答。通过这个基准,可以更有效地评估和改进RAG模型在处理这些复杂情况下的能力。

技术框架:MTRAG-UN基准包含以下几个关键组成部分:1) 涵盖6个不同领域的对话数据;2) 每个对话包含多个轮次,模拟真实的多轮交互场景;3) 对话中包含各种类型的复杂问题,例如UNanswerable、UNderspecified、NONstandalone和UNclear;4) 提供相应的语料库,用于检索增强生成。研究人员可以使用该基准来评估现有的RAG模型,并开发新的模型来解决这些挑战。

关键创新:MTRAG-UN的关键创新在于其对多轮对话中复杂问题的系统性建模和评估。与以往的基准数据集相比,MTRAG-UN更加关注RAG模型在处理上下文依赖性、问题理解和生成方面的能力。通过引入UNanswerable、UNderspecified等概念,该基准能够更全面地评估RAG模型的性能。

关键设计:MTRAG-UN基准的设计考虑了以下关键因素:1) 领域多样性:涵盖多个领域,以确保基准的通用性;2) 对话轮次:包含多个轮次,以模拟真实的多轮交互场景;3) 问题类型:包含各种类型的复杂问题,以评估RAG模型在不同情况下的性能;4) 数据质量:经过人工标注和验证,以确保数据的准确性和可靠性。具体的数据收集和标注方法在论文中未详细说明,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,现有的检索和生成模型在MTRAG-UN基准上表现不佳,尤其是在处理UNanswerable、UNderspecified、NONstandalone和UNclear等问题时。这表明RAG模型在处理复杂多轮对话方面仍有很大的提升空间,MTRAG-UN可以作为评估和改进这些模型的有效工具。

🎯 应用场景

MTRAG-UN基准的潜在应用领域包括智能客服、聊天机器人、问答系统等。通过提高RAG模型在处理复杂多轮对话中的能力,可以提升用户体验,并扩展RAG模型在实际应用中的范围。该基准的发布将促进相关领域的研究,并推动RAG技术的进一步发展。

📄 摘要(原文)

We present MTRAG-UN, a benchmark for exploring open challenges in multi-turn retrieval augmented generation, a popular use of large language models. We release a benchmark of 666 tasks containing over 2,800 conversation turns across 6 domains with accompanying corpora. Our experiments show that retrieval and generation models continue to struggle on conversations with UNanswerable, UNderspecified, and NONstandalone questions and UNclear responses. Our benchmark is available at https://github.com/IBM/mt-rag-benchmark