MARS-Bench: A Multi-turn Athletic Real-world Scenario Benchmark for Dialogue Evaluation

📄 arXiv: 2505.23810v2 📥 PDF

作者: Chenghao Yang, Yinbo Luo, Zhoufutu Wen, Qi Chu, Tao Gong, Longxiang Liu, Kaiyuan Zhang, Jianpeng Jiao, Ge Zhang, Wenhao Huang, Nenghai Yu

分类: cs.CL, cs.AI

发布日期: 2025-05-27 (更新: 2025-09-15)

备注: 29 pages, 13 figures, Accepted as EMNLP2025 Findings


💡 一句话要点

提出MARS-Bench,用于评估LLM在体育赛事多轮对话场景下的鲁棒性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多轮对话评估 大型语言模型 体育赛事场景 鲁棒性 长程依赖 动机转移 跨轮依赖 注意力机制

📋 核心要点

  1. 现有基准测试无法充分评估LLM在处理复杂、长程依赖对话中的鲁棒性,尤其是在动机转移和跨轮依赖方面。
  2. MARS-Bench通过构建基于体育赛事实况文本评论的多轮对话场景,模拟真实对话,评估LLM在超多轮、交互式多轮和跨轮任务中的表现。
  3. 实验结果表明,闭源LLM优于开源LLM,显式推理能提升LLM的鲁棒性,但LLM在处理动机转移和跨轮依赖时仍面临挑战。

📝 摘要(中文)

大型语言模型(LLMs),如ChatGPT,已被广泛应用于实际对话应用中。然而,LLMs的鲁棒性,尤其是在处理包含频繁动机转移和复杂跨轮依赖的长对话会话时,一直备受诟病。目前还没有基准能够充分反映这些弱点。本文提出了MARS-Bench,一个多轮体育真实场景对话基准,旨在弥补这一差距。MARS-Bench由赛事实况文本评论构建,具有逼真的对话特征,专门用于评估多轮对话的三个关键方面:超多轮、交互式多轮和跨轮任务。在MARS-Bench上的大量实验表明,闭源LLMs明显优于开源替代方案,显式推理显著提高了LLMs在处理长对话会话时的鲁棒性,并且LLMs在处理动机转移和复杂的跨轮依赖时确实面临重大挑战。此外,基于Qwen2.5-7B-Instruction中的注意力可视化实验,我们对特殊token导致的注意力下沉如何导致LLMs在处理长对话会话时性能下降提供了机制上的可解释性。

🔬 方法详解

问题定义:现有的大型语言模型在处理真实场景下的复杂多轮对话时,尤其是在体育赛事这种包含频繁动机转移和复杂跨轮依赖的场景中,表现出鲁棒性不足的问题。现有的对话评估基准无法充分捕捉这些挑战,导致对LLM能力的评估不全面。

核心思路:MARS-Bench的核心思路是构建一个更贴近真实场景的多轮对话数据集,该数据集基于体育赛事实况文本评论,包含丰富的上下文信息、动机转移和跨轮依赖关系。通过在这种更具挑战性的数据集上评估LLM,可以更准确地衡量其在复杂对话场景下的表现。

技术框架:MARS-Bench的构建流程主要包括以下几个阶段:1) 数据收集:从体育赛事实况文本评论中收集原始文本数据。2) 数据清洗和预处理:对原始文本数据进行清洗、分句、分段等处理,提取对话轮次。3) 场景构建:根据体育赛事的特点,构建包含超多轮、交互式多轮和跨轮任务的对话场景。4) 数据标注:对构建的对话场景进行标注,包括对话意图、实体关系等信息。

关键创新:MARS-Bench的关键创新在于其数据集的构建方式,它不是人工合成的对话,而是基于真实的体育赛事实况文本评论,因此更贴近真实场景,包含更丰富的上下文信息和更复杂的对话模式。此外,MARS-Bench还针对多轮对话的特点,设计了超多轮、交互式多轮和跨轮任务,可以更全面地评估LLM在多轮对话中的能力。

关键设计:MARS-Bench的数据集包含多种体育赛事,例如足球、篮球、网球等,以保证数据集的多样性。数据集的规模也经过精心设计,既要保证数据集的质量,又要避免数据集过大导致评估成本过高。在评估指标方面,MARS-Bench采用了多种常用的对话评估指标,例如BLEU、ROUGE、METEOR等,以及一些专门针对多轮对话的评估指标。

🖼️ 关键图片

img_0

📊 实验亮点

实验结果表明,闭源LLM(如GPT-4)在MARS-Bench上的表现明显优于开源LLM(如LLaMA-2)。通过显式推理,LLM在处理长对话会话时的鲁棒性得到了显著提升。然而,所有LLM在处理动机转移和复杂的跨轮依赖时仍然面临挑战。注意力可视化实验表明,特殊token导致的注意力下沉是LLM在处理长对话会话时性能下降的原因之一。

🎯 应用场景

MARS-Bench可用于评估和提升LLM在复杂多轮对话场景下的性能,尤其是在需要理解上下文、处理动机转移和跨轮依赖的应用中,例如智能客服、对话式推荐系统、游戏AI等。该基准的提出有助于推动LLM在真实世界对话应用中的发展。

📄 摘要(原文)

Large Language Models (\textbf{LLMs}), e.g. ChatGPT, have been widely adopted in real-world dialogue applications. However, LLMs' robustness, especially in handling long complex dialogue sessions, including frequent motivation transfer, sophisticated cross-turn dependency, is criticized all along. Nevertheless, no existing benchmarks can fully reflect these weaknesses. We present \textbf{MARS-Bench}, a \textbf{M}ulti-turn \textbf{A}thletic \textbf{R}eal-world \textbf{S}cenario Dialogue \textbf{Bench}mark, designed to remedy the gap. MARS-Bench is constructed from play-by-play text commentary so to feature realistic dialogues specifically designed to evaluate three critical aspects of multi-turn conversations: Ultra Multi-turn, Interactive Multi-turn, and Cross-turn Tasks. Extensive experiments on MARS-Bench also reveal that closed-source LLMs significantly outperform open-source alternatives, explicit reasoning significantly boosts LLMs' robustness on handling long complex dialogue sessions, and LLMs indeed face significant challenges when handling motivation transfer and sophisticated cross-turn dependency. Moreover, we provide mechanistic interpretability on how attention sinks due to special tokens lead to LLMs' performance degradation when handling long complex dialogue sessions based on attention visualization experiment in Qwen2.5-7B-Instruction.