Moment-Video: Diagnosing Temporal Fidelity of Video MLLMs on Momentary Visual Events

📄 arXiv: 2606.02522v1 📥 PDF

作者: Xiaolin Liu, Yilun Zhu, Xiangyu Zhao, Xuehui Wang, Yan Li, Xin Li, Haoyu Cao, Xing Sun, Shaofeng Zhang, Xu Yang, Zhihang Zhong, Xue Yang

分类: cs.CV, cs.AI

发布日期: 2026-06-01

备注: 28 pages, 10 figures, 11 tables


💡 一句话要点

Moment-Video:诊断视频多模态大模型在瞬时视觉事件上的时间保真度

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视频多模态大模型 时间保真度 瞬时视觉事件 视频理解 基准数据集

📋 核心要点

  1. 现有视频MLLM难以捕捉视频中短暂但关键的视觉事件,导致理解能力不足。
  2. 提出Moment-Video基准,专注于评估模型对瞬时视觉事件的时间保真度。
  3. 实验表明,现有模型在Moment-Video上表现不佳,揭示了时间保真度方面的显著差距。

📝 摘要(中文)

视频多模态大语言模型(MLLM)在通用和长视频理解方面取得了快速进展,但它们在保留短暂的关键视觉证据方面的能力仍未得到充分探索。许多实际问题取决于瞬时视觉事件:可能只持续几帧的局部动作或状态转换。这种证据可能被稀疏帧采样跳过,被视觉token压缩抑制,或被粗略的时间聚合稀释,导致语言端推理无法可靠地恢复。我们引入了Moment-Video,这是一个通过瞬时视觉事件理解来诊断视频MLLM时间保真度的基准。每个问题都基于一个局部化的、视觉上可观察的、对采样敏感的事件,要求模型注意、计数、描述或推理短暂的证据,而不是依赖于持久的对象、全局场景上下文或语言先验。Moment-Video包含1000个经过人工验证的视频问答对,涵盖7个领域和25个细粒度子类别,包括四种任务类型:时间发生、时间计数、动作描述和时间推理。我们在Moment-Video上评估了33个专有和开源的MLLM。性能最佳的模型Seed-2.0-Pro的总体准确率仅为39.6%,而大多数开源模型仍低于25%,这表明在瞬时视觉事件理解方面存在巨大差距。诊断分析表明,更密集的帧采样可以改善某些模型,但不能消除瓶颈,更长的视频会带来更强的时间定位挑战。这些发现表明,当前的视频MLLM仍然缺乏时间上忠实的表示,无法捕获、保存和使用短暂但决定性的视觉证据。

🔬 方法详解

问题定义:现有视频多模态大语言模型在处理长视频理解任务时,往往忽略视频中短暂的、但对理解至关重要的视觉事件。这些事件可能只持续几帧,但包含了回答问题的关键信息。现有方法通常采用稀疏帧采样或视觉token压缩等技术,导致这些瞬时事件的信息丢失,从而影响模型的理解能力。

核心思路:论文的核心思路是构建一个专门用于评估视频MLLM对瞬时视觉事件理解能力的基准数据集,即Moment-Video。通过设计一系列需要模型关注、计数、描述或推理短暂视觉证据的问答对,来诊断模型的时间保真度。这种设计旨在迫使模型关注视频中的关键帧,而不是依赖于全局场景上下文或语言先验。

技术框架:Moment-Video基准包含以下几个关键组成部分: 1. 视频选择:选择包含清晰、可观察的瞬时视觉事件的视频片段。 2. 问题设计:设计与视频中的瞬时事件相关的问答对,涵盖时间发生、时间计数、动作描述和时间推理等任务类型。 3. 人工验证:对生成的问答对进行人工验证,确保问题的正确性和答案的唯一性。 4. 模型评估:使用Moment-Video评估现有视频MLLM的性能,并分析模型的优缺点。

关键创新:该论文的关键创新在于提出了Moment-Video基准,这是一个专门用于诊断视频MLLM时间保真度的工具。与现有视频理解基准不同,Moment-Video专注于评估模型对瞬时视觉事件的理解能力,从而更全面地评估模型的视频理解能力。

关键设计:Moment-Video基准的关键设计包括: 1. 多样化的领域和子类别:涵盖7个领域和25个细粒度子类别,确保基准的通用性。 2. 四种任务类型:包括时间发生、时间计数、动作描述和时间推理,全面评估模型的时间理解能力。 3. 人工验证的问答对:确保问题的质量和答案的准确性。 4. 采样敏感性:问题设计需要模型关注特定帧,对采样策略敏感。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在Moment-Video基准上,33个主流视频MLLM的评估结果显示,即使是表现最佳的Seed-2.0-Pro模型,其总体准确率也仅为39.6%,而大多数开源模型的准确率低于25%。实验还表明,增加帧采样密度可以提升部分模型的性能,但无法完全解决问题。更长的视频会带来更强的时间定位挑战,表明现有模型在时间保真度方面存在显著不足。

🎯 应用场景

该研究成果可应用于提升视频监控、自动驾驶、机器人等领域中AI系统对关键事件的快速响应和准确判断能力。通过提高模型对瞬时视觉信息的敏感度,可以有效减少误判和漏判,提升系统的安全性和可靠性。未来,该基准可用于指导视频MLLM的训练和优化,推动相关技术的发展。

📄 摘要(原文)

Video multimodal large language models (MLLMs) have made rapid progress on general and long-form video understanding, yet their ability to preserve brief answer-critical visual evidence remains underexplored. Many practical questions are determined by momentary visual events: localized actions or state transitions that may last only a few frames. Such evidence can be skipped by sparse frame sampling, suppressed by visual-token compression, or diluted by coarse temporal aggregation, causing failures that language-side reasoning cannot reliably recover. We introduce Moment-Video, a benchmark for diagnosing the temporal fidelity of video MLLMs through momentary visual event understanding. Each question is grounded in a localized, visually observable, and sampling-sensitive event, requiring models to notice, count, describe, or reason about transient evidence rather than rely on persistent objects, global scene context, or language priors. Moment-Video contains 1,000 human-verified video-QA pairs across 7 domains and 25 fine-grained subcategories, covering four task types: Temporal Occurrence, Temporal Counting, Action Description, and Temporal Reasoning. We evaluate 33 proprietary and open-source MLLMs on Moment-Video. The best-performing model, Seed-2.0-Pro, achieves only 39.6% overall accuracy, while most open-source models remain below 25%, revealing a substantial gap in momentary visual event understanding. Diagnostic analyses show that denser frame sampling improves some models but does not eliminate the bottleneck, and longer videos introduce stronger temporal-localization challenges. These findings suggest that current video MLLMs still lack temporally faithful representations for capturing, preserving, and using brief but decisive visual evidence.