Moment-Video: Diagnosing Temporal Fidelity of Video MLLMs on Momentary Visual Events

作者: Xiaolin Liu, Yilun Zhu, Xiangyu Zhao, Xuehui Wang, Yan Li, Xin Li, Haoyu Cao, Xing Sun, Shaofeng Zhang, Xu Yang, Zhihang Zhong, Xue Yang

分类: cs.CV, cs.AI

发布日期: 2026-06-01

备注: 28 pages, 10 figures, 11 tables

💡 一句话要点

Moment-Video：诊断视频多模态大模型在瞬时视觉事件上的时间保真度

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视频多模态大模型 时间保真度 瞬时视觉事件 视频理解 基准数据集

📋 核心要点

现有视频MLLM难以捕捉视频中短暂但关键的视觉事件，导致理解能力不足。
提出Moment-Video基准，专注于评估模型对瞬时视觉事件的时间保真度。
实验表明，现有模型在Moment-Video上表现不佳，揭示了时间保真度方面的显著差距。

📝 摘要（中文）

视频多模态大语言模型(MLLM)在通用和长视频理解方面取得了快速进展，但它们在保留短暂的关键视觉证据方面的能力仍未得到充分探索。许多实际问题取决于瞬时视觉事件：可能只持续几帧的局部动作或状态转换。这种证据可能被稀疏帧采样跳过，被视觉token压缩抑制，或被粗略的时间聚合稀释，导致语言端推理无法可靠地恢复。我们引入了Moment-Video，这是一个通过瞬时视觉事件理解来诊断视频MLLM时间保真度的基准。每个问题都基于一个局部化的、视觉上可观察的、对采样敏感的事件，要求模型注意、计数、描述或推理短暂的证据，而不是依赖于持久的对象、全局场景上下文或语言先验。Moment-Video包含1000个经过人工验证的视频问答对，涵盖7个领域和25个细粒度子类别，包括四种任务类型：时间发生、时间计数、动作描述和时间推理。我们在Moment-Video上评估了33个专有和开源的MLLM。性能最佳的模型Seed-2.0-Pro的总体准确率仅为39.6%，而大多数开源模型仍低于25%，这表明在瞬时视觉事件理解方面存在巨大差距。诊断分析表明，更密集的帧采样可以改善某些模型，但不能消除瓶颈，更长的视频会带来更强的时间定位挑战。这些发现表明，当前的视频MLLM仍然缺乏时间上忠实的表示，无法捕获、保存和使用短暂但决定性的视觉证据。

🔬 方法详解

问题定义：现有视频多模态大语言模型在处理长视频理解任务时，往往忽略视频中短暂的、但对理解至关重要的视觉事件。这些事件可能只持续几帧，但包含了回答问题的关键信息。现有方法通常采用稀疏帧采样或视觉token压缩等技术，导致这些瞬时事件的信息丢失，从而影响模型的理解能力。

核心思路：论文的核心思路是构建一个专门用于评估视频MLLM对瞬时视觉事件理解能力的基准数据集，即Moment-Video。通过设计一系列需要模型关注、计数、描述或推理短暂视觉证据的问答对，来诊断模型的时间保真度。这种设计旨在迫使模型关注视频中的关键帧，而不是依赖于全局场景上下文或语言先验。

技术框架：Moment-Video基准包含以下几个关键组成部分： 1. 视频选择：选择包含清晰、可观察的瞬时视觉事件的视频片段。 2. 问题设计：设计与视频中的瞬时事件相关的问答对，涵盖时间发生、时间计数、动作描述和时间推理等任务类型。 3. 人工验证：对生成的问答对进行人工验证，确保问题的正确性和答案的唯一性。 4. 模型评估：使用Moment-Video评估现有视频MLLM的性能，并分析模型的优缺点。

关键创新：该论文的关键创新在于提出了Moment-Video基准，这是一个专门用于诊断视频MLLM时间保真度的工具。与现有视频理解基准不同，Moment-Video专注于评估模型对瞬时视觉事件的理解能力，从而更全面地评估模型的视频理解能力。

关键设计：Moment-Video基准的关键设计包括： 1. 多样化的领域和子类别：涵盖7个领域和25个细粒度子类别，确保基准的通用性。 2. 四种任务类型：包括时间发生、时间计数、动作描述和时间推理，全面评估模型的时间理解能力。 3. 人工验证的问答对：确保问题的质量和答案的准确性。 4. 采样敏感性：问题设计需要模型关注特定帧，对采样策略敏感。

🖼️ 关键图片

📊 实验亮点

在Moment-Video基准上，33个主流视频MLLM的评估结果显示，即使是表现最佳的Seed-2.0-Pro模型，其总体准确率也仅为39.6%，而大多数开源模型的准确率低于25%。实验还表明，增加帧采样密度可以提升部分模型的性能，但无法完全解决问题。更长的视频会带来更强的时间定位挑战，表明现有模型在时间保真度方面存在显著不足。

🎯 应用场景

该研究成果可应用于提升视频监控、自动驾驶、机器人等领域中AI系统对关键事件的快速响应和准确判断能力。通过提高模型对瞬时视觉信息的敏感度，可以有效减少误判和漏判，提升系统的安全性和可靠性。未来，该基准可用于指导视频MLLM的训练和优化，推动相关技术的发展。

📄 摘要（原文）

Video multimodal large language models (MLLMs) have made rapid progress on general and long-form video understanding, yet their ability to preserve brief answer-critical visual evidence remains underexplored. Many practical questions are determined by momentary visual events: localized actions or state transitions that may last only a few frames. Such evidence can be skipped by sparse frame sampling, suppressed by visual-token compression, or diluted by coarse temporal aggregation, causing failures that language-side reasoning cannot reliably recover. We introduce Moment-Video, a benchmark for diagnosing the temporal fidelity of video MLLMs through momentary visual event understanding. Each question is grounded in a localized, visually observable, and sampling-sensitive event, requiring models to notice, count, describe, or reason about transient evidence rather than rely on persistent objects, global scene context, or language priors. Moment-Video contains 1,000 human-verified video-QA pairs across 7 domains and 25 fine-grained subcategories, covering four task types: Temporal Occurrence, Temporal Counting, Action Description, and Temporal Reasoning. We evaluate 33 proprietary and open-source MLLMs on Moment-Video. The best-performing model, Seed-2.0-Pro, achieves only 39.6% overall accuracy, while most open-source models remain below 25%, revealing a substantial gap in momentary visual event understanding. Diagnostic analyses show that denser frame sampling improves some models but does not eliminate the bottleneck, and longer videos introduce stronger temporal-localization challenges. These findings suggest that current video MLLMs still lack temporally faithful representations for capturing, preserving, and using brief but decisive visual evidence.

Moment-Video: Diagnosing Temporal Fidelity of Video MLLMs on Momentary Visual Events

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理