RefereeBench: Are Video MLLMs Ready to be Multi-Sport Referees
作者: Yichen Xu, Yuanhang Liu, Chuhan Wang, Zihan Zhao, jinghan luo, Jianzhe Ma, Wenxuan Wang, Qin Jin
分类: cs.CV, cs.CL
发布日期: 2026-04-17
备注: Work in Progress
💡 一句话要点
提出RefereeBench,评估视频多模态大模型在多体育项目裁判任务中的能力。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态大语言模型 体育裁判 视频理解 基准测试 规则推理
📋 核心要点
- 现有的多模态大语言模型在通用视频理解方面表现出色,但在专业、规则驱动的决策支持方面能力不足。
- RefereeBench通过构建大规模、高质量的体育视频问答数据集,评估模型在体育裁判任务中的各项能力。
- 实验结果表明,即使是最先进的模型在RefereeBench上表现仍然欠佳,突出了模型在规则应用和时间定位方面的不足。
📝 摘要(中文)
本文提出了RefereeBench,这是首个大规模基准测试,用于评估多模态大语言模型(MLLMs)作为自动体育裁判的能力。RefereeBench涵盖11个体育项目,包含925个精心挑选的视频和6475个问答对,评估五个核心的执裁能力:犯规存在性、犯规和判罚分类、犯规和判罚推理、实体感知以及时间定位。该基准完全由人工标注,以确保高质量的标注,这些标注基于真实的执裁逻辑和多模态证据。对最先进的MLLM的广泛评估表明,即使是最强大的模型,如Doubao-Seed-1.8和Gemini-3-Pro,也只能达到约60%的准确率,而最强的开源模型Qwen3-VL仅达到47%。这些结果表明,当前的模型离成为可靠的体育裁判还很远。进一步的分析表明,虽然模型通常可以识别事件和相关实体,但它们在规则应用和时间定位方面存在困难,并且经常在正常片段中过度判罚犯规。我们的基准强调,未来的MLLM需要更好地整合领域知识和多模态理解,从而推进可信赖的AI辅助执裁和更广泛的多模态决策。
🔬 方法详解
问题定义:现有MLLM在通用视频理解任务上取得了显著进展,但其在特定领域,特别是需要规则理解和精确时间定位的体育裁判任务中的表现尚不清楚。现有方法缺乏针对体育裁判场景的专门评估,无法有效衡量模型在该领域的决策能力。
核心思路:RefereeBench的核心思路是构建一个高质量、大规模的体育视频问答数据集,涵盖多种体育项目和执裁场景,从而全面评估MLLM在体育裁判任务中的能力。通过人工标注确保数据集的准确性和可靠性,并设计多种类型的问答对,以考察模型的不同能力。
技术框架:RefereeBench数据集构建流程主要包括以下几个阶段:1) 视频收集:从多个来源收集涵盖11个体育项目的视频。2) 视频筛选:人工筛选出包含争议判罚或需要裁判决策的视频片段。3) 问题生成:针对每个视频片段,设计多种类型的问答对,包括犯规存在性、犯规和判罚分类、犯规和判罚推理、实体感知以及时间定位。4) 答案标注:由专业的裁判或体育专家进行人工标注,确保答案的准确性和权威性。
关键创新:RefereeBench的关键创新在于其是首个专门针对体育裁判任务的大规模MLLM评估基准。它不仅涵盖了多种体育项目,还设计了多种类型的问答对,能够全面评估模型在体育裁判任务中的各项能力。此外,数据集完全由人工标注,保证了标注质量,避免了自动标注可能带来的噪声。
关键设计:RefereeBench包含了925个视频和6475个问答对,涵盖11个体育项目。问答对类型包括:1) 犯规存在性:判断视频中是否存在犯规行为。2) 犯规和判罚分类:对犯规行为进行分类,并判断相应的判罚。3) 犯规和判罚推理:解释犯规行为的原因和判罚的依据。4) 实体感知:识别视频中涉及犯规行为的实体(例如,运动员)。5) 时间定位:精确定位犯规行为发生的时间点。
🖼️ 关键图片
📊 实验亮点
实验结果表明,即使是最先进的MLLM,如Doubao-Seed-1.8和Gemini-3-Pro,在RefereeBench上的准确率也仅为60%左右,而最强的开源模型Qwen3-VL仅达到47%。这表明当前的模型在体育裁判任务中仍存在显著不足,尤其是在规则应用和时间定位方面。
🎯 应用场景
RefereeBench的研究成果可应用于开发AI辅助体育裁判系统,提高裁判判罚的准确性和效率。此外,该研究也为多模态大模型在其他需要规则理解和精确时间定位的应用场景,如自动驾驶、医疗诊断等领域提供了借鉴。
📄 摘要(原文)
While Multimodal Large Language Models (MLLMs) excel at generic video understanding, their ability to support specialized, rule-grounded decision-making remains insufficiently explored. In this paper, we introduce RefereeBench, the first large-scale benchmark for evaluating MLLMs as automatic sports referees. Spanning 11 sports with 925 curated videos and 6,475 QA pairs, RefereeBench evaluates five core officiating abilities: foul existence, foul and penalty classification, foul and penalty reasoning, entity perception, and temporal grounding. The benchmark is fully human-annotated to ensure high-quality annotations grounded in authentic officiating logic and multimodal evidence. Extensive evaluations of state-of-the-art MLLMs show that even the strongest models, such as Doubao-Seed-1.8 and Gemini-3-Pro, achieve only around 60% accuracy, while the strongest open-source model, Qwen3-VL, reaches only 47%. These results indicate that current models remain far from being reliable sports referees. Further analysis shows that while models can often identify incidents and involved entities, they struggle with rule application and temporal grounding, and frequently over-call fouls on normal clips. Our benchmark highlights the need for future MLLMs that better integrate domain knowledge and multimodal understanding, advancing trustworthy AI-assisted officiating and broader multimodal decision-making.