TOMATO: Assessing Visual Temporal Reasoning Capabilities in Multimodal Foundation Models

📄 arXiv: 2410.23266v2 📥 PDF

作者: Ziyao Shangguan, Chuhan Li, Yuxuan Ding, Yanan Zheng, Yilun Zhao, Tesca Fitzgerald, Arman Cohan

分类: cs.CV, cs.AI, cs.CL

发布日期: 2024-10-30 (更新: 2025-08-25)


💡 一句话要点

提出TOMATO基准,用于评估多模态模型在视频理解中的视觉时序推理能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视频理解 多模态学习 时间推理 基准测试 视觉推理

📋 核心要点

  1. 现有视频理解基准可能高估了多模态模型的时间推理能力,因为模型可能依赖单帧或乱序帧就能解决问题。
  2. 论文提出TOMATO基准,包含多帧增益、帧顺序敏感性和帧信息差异三个原则,旨在更严格地评估模型的时序推理能力。
  3. 实验结果表明,现有最佳模型与人类在TOMATO基准上存在显著差距(57.3%),且模型缺乏将孤立帧理解为连续序列的能力。

📝 摘要(中文)

现有的基准测试通常会突出多模态基础模型(MFMs)在利用时间上下文进行视频理解方面所取得的显著性能。然而,这些模型在视觉时序推理方面的表现究竟如何?我们对现有基准的研究表明,MFMs的这种能力可能被高估了,因为许多问题可以通过使用单个、少量或乱序的帧来解决。为了系统地检查当前的视觉时序推理任务,我们提出了三个原则和相应的指标:(1)多帧增益,(2)帧顺序敏感性,(3)帧信息差异。遵循这些原则,我们引入了TOMATO,即时序推理多模态评估,这是一个旨在严格评估MFMs在视频理解中时序推理能力的新基准。TOMATO包含1484个精心策划、人工标注的问题,涵盖六个任务(即,动作计数、方向、旋转、形状与趋势、速度与频率以及视觉线索),应用于1417个视频,包括805个自录制和生成的视频,涵盖以人为中心、真实世界和模拟场景。我们的全面评估显示,性能最佳的模型与人类之间存在57.3%的性能差距。此外,我们的深入分析揭示了当前MFMs中超出此差距的更根本的局限性。虽然它们可以准确地识别孤立帧中的事件,但它们无法将这些帧解释为连续序列。我们相信TOMATO将成为评估下一代MFMs的关键测试平台,并呼吁社区开发能够通过视频模态理解人类世界动态的AI系统。

🔬 方法详解

问题定义:现有视频理解基准测试在评估多模态模型的时间推理能力时存在缺陷。许多问题可以通过单帧、少量帧或乱序帧来解决,导致模型在基准测试中表现良好,但实际的时间推理能力被高估。现有方法缺乏对模型时间推理能力的有效评估手段。

核心思路:为了更准确地评估模型的时间推理能力,论文提出了三个原则:多帧增益(Multi-Frame Gain)、帧顺序敏感性(Frame Order Sensitivity)和帧信息差异(Frame Information Disparity)。基于这些原则,构建了一个新的基准测试TOMATO,该基准测试中的问题需要模型真正理解视频中的时间关系才能解决。

技术框架:TOMATO基准测试包含1484个问题,涵盖六个任务:动作计数、方向、旋转、形状与趋势、速度与频率以及视觉线索。这些问题应用于1417个视频,包括自录制和生成的视频,涵盖以人为中心、真实世界和模拟场景。整个流程包括视频收集、问题设计、人工标注和模型评估。

关键创新:TOMATO基准测试的关键创新在于其设计原则,即多帧增益、帧顺序敏感性和帧信息差异。多帧增益要求模型必须利用多个帧才能获得更好的性能。帧顺序敏感性要求模型能够理解帧的顺序,乱序帧会导致性能下降。帧信息差异要求不同帧包含不同的信息,模型需要整合这些信息才能解决问题。这些原则确保了TOMATO能够更准确地评估模型的时间推理能力。

关键设计:TOMATO基准测试中的问题由人工设计和标注,确保问题的质量和难度。视频数据涵盖多种场景,包括人类活动、真实世界事件和模拟场景,以增加基准测试的泛化能力。评估指标包括准确率等,用于衡量模型在不同任务上的性能。

🖼️ 关键图片

img_0

📊 实验亮点

实验结果表明,在TOMATO基准测试中,现有最佳多模态模型与人类之间存在57.3%的性能差距,这表明现有模型在时间推理方面仍存在显著不足。此外,分析表明,模型虽然可以识别孤立帧中的事件,但无法将这些帧理解为连续序列,揭示了模型在时间推理方面的根本局限性。

🎯 应用场景

该研究成果可应用于开发更智能的视频理解系统,例如智能监控、自动驾驶、人机交互等领域。通过更准确地评估模型的时间推理能力,可以推动相关技术的发展,使AI系统能够更好地理解和利用视频信息,从而实现更高级的应用。

📄 摘要(原文)

Existing benchmarks often highlight the remarkable performance achieved by state-of-the-art Multimodal Foundation Models (MFMs) in leveraging temporal context for video understanding. However, how well do the models truly perform visual temporal reasoning? Our study of existing benchmarks shows that this capability of MFMs is likely overestimated as many questions can be solved by using a single, few, or out-of-order frames. To systematically examine current visual temporal reasoning tasks, we propose three principles with corresponding metrics: (1) Multi-Frame Gain, (2) Frame Order Sensitivity, and (3) Frame Information Disparity. Following these principles, we introduce TOMATO, Temporal Reasoning Multimodal Evaluation, a novel benchmark crafted to rigorously assess MFMs' temporal reasoning capabilities in video understanding. TOMATO comprises 1,484 carefully curated, human-annotated questions spanning six tasks (i.e., action count, direction, rotation, shape & trend, velocity & frequency, and visual cues), applied to 1,417 videos, including 805 self-recorded and -generated videos, that encompass human-centric, real-world, and simulated scenarios. Our comprehensive evaluation reveals a human-model performance gap of 57.3% with the best-performing model. Moreover, our in-depth analysis uncovers more fundamental limitations beyond this gap in current MFMs. While they can accurately recognize events in isolated frames, they fail to interpret these frames as a continuous sequence. We believe TOMATO will serve as a crucial testbed for evaluating the next-generation MFMs and as a call to the community to develop AI systems capable of comprehending human world dynamics through the video modality.