QEVA: A Reference-Free Evaluation Metric for Narrative Video Summarization with Multimodal Question Answering
作者: Woojun Jung, Junyeong Kim
分类: cs.CV, cs.AI
发布日期: 2026-04-27
备注: Accepted to Findings of EMNLP 2025
DOI: 10.18653/v1/2025.findings-emnlp.1340
💡 一句话要点
提出QEVA:一种基于多模态问答的叙事视频摘要无参考评价指标
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视频摘要 无参考评估 多模态问答 视频理解 自然语言处理
📋 核心要点
- 现有视频摘要评估方法依赖人工参考摘要,成本高且难以捕捉语义细微差别。
- QEVA通过多模态问答直接评估候选摘要与源视频的一致性,无需参考摘要。
- 实验表明QEVA与人类判断的相关性高于现有方法,为视频摘要评估提供新思路。
📝 摘要(中文)
视频到文本的摘要生成在综合评估方法方面仍有待探索。传统的基于n-gram重叠的指标和最近基于大型语言模型(LLM)的方法严重依赖于人工编写的参考摘要,限制了它们的实用性和对细微语义方面的敏感性。本文提出了QEVA,一种无参考指标,通过多模态问答直接针对源视频评估候选摘要。QEVA从三个明确的维度评估摘要:覆盖率、事实性和时间顺序。我们还引入了MLVU(VS)-Eval,这是一个从MLVU数据集派生的新注释基准,包含使用最先进的视频-语言多模态模型从200个视频生成的800个摘要。该数据集为评估建立了一个透明且一致的框架。实验结果表明,与现有方法相比,QEVA与人类判断的相关性更高,如Kendall's $τ_b$, $τ_c$和Spearman's $ρ$所衡量。我们希望我们的基准和指标将促进视频到文本摘要研究的有意义的进展,并为未来评估方法的发展提供有价值的见解。
🔬 方法详解
问题定义:现有视频摘要评估方法,如基于n-gram重叠的指标和基于大型语言模型的方法,严重依赖人工编写的参考摘要。这限制了评估的实用性,并且难以捕捉摘要中细微的语义信息和事实准确性。因此,需要一种无需参考摘要,能够直接评估候选摘要质量的指标。
核心思路:QEVA的核心思路是通过多模态问答来评估候选摘要与源视频的一致性。具体来说,就是针对视频内容提出问题,然后利用候选摘要来回答这些问题。如果摘要能够准确回答问题,则认为该摘要质量较高。这种方法避免了对人工参考摘要的依赖,并且能够更全面地评估摘要的覆盖率、事实性和时间顺序。
技术框架:QEVA的整体框架包括以下几个主要模块:1) 问题生成模块:根据源视频的内容自动生成一系列问题。2) 答案生成模块:利用候选摘要来回答生成的问题。3) 评估模块:比较生成的答案与视频的真实答案,从而评估摘要的质量。评估模块会从覆盖率、事实性和时间顺序三个维度进行评估。
关键创新:QEVA最重要的技术创新点在于它是一种无参考的评估指标。与传统的评估方法相比,QEVA不需要人工编写的参考摘要,从而降低了评估成本,并且提高了评估的灵活性和客观性。此外,QEVA通过多模态问答的方式,能够更全面地评估摘要的质量,包括覆盖率、事实性和时间顺序。
关键设计:问题生成模块可以使用各种自然语言处理技术,例如基于规则的方法、基于模板的方法或基于深度学习的方法。答案生成模块可以使用各种问答模型,例如基于知识图谱的问答模型或基于深度学习的问答模型。评估模块可以使用各种相似度度量方法,例如余弦相似度或编辑距离。此外,MLVU(VS)-Eval数据集的构建也为QEVA的评估提供了标准化的基准。
🖼️ 关键图片
📊 实验亮点
实验结果表明,QEVA与人类判断的相关性高于现有的评估方法,如Kendall's $τ_b$, $τ_c$和Spearman's $ρ$。这表明QEVA能够更准确地反映摘要的质量。此外,MLVU(VS)-Eval数据集的发布为视频摘要评估提供了一个新的、标准化的基准。
🎯 应用场景
QEVA可应用于视频摘要的自动评估、视频内容理解、视频检索等领域。它可以帮助研究人员更有效地评估视频摘要模型的性能,从而推动视频摘要技术的发展。此外,QEVA还可以用于评估视频内容的质量,例如评估视频是否包含虚假信息或不准确的信息。在视频检索领域,QEVA可以用于评估视频与查询的相关性。
📄 摘要(原文)
Video-to-text summarization remains underexplored in terms of comprehensive evaluation methods. Traditional n-gram overlap-based metrics and recent large language model (LLM)-based approaches depend heavily on human-written reference summaries, limiting their practicality and sensitivity to nuanced semantic aspects. In this paper, we propose QEVA, a reference-free metric evaluating candidate summaries directly against source videos through multimodal question answering. QEVA assesses summaries along three clear dimensions: Coverage, Factuality, and Chronology. We also introduce MLVU(VS)-Eval, a new annotated benchmark derived from the MLVU dataset, comprising 800 summaries generated from 200 videos using state-of-the-art video-language multimodal models. This dataset establishes a transparent and consistent framework for evaluation. Experimental results demonstrate that QEVA shows higher correlation with human judgments compared to existing approaches, as measured by Kendall's $τ_b$, $τ_c$, and Spearman's $ρ$. We hope that our benchmark and metric will facilitate meaningful progress in video-to-text summarization research and provide valuable insights for the development of future evaluation methods.