Which Way Does Time Flow? A Psychophysics-Grounded Evaluation for Vision-Language Models
作者: Shiho Matta, Lis Kanashiro Pereira, Peitao Han, Fei Cheng, Shigeru Kitazawa
分类: cs.CV, cs.CL
发布日期: 2025-10-30 (更新: 2025-11-05)
备注: 10 pages
💡 一句话要点
提出AoT-PsyPhyBENCH基准,评估视觉-语言模型对视频时间方向的理解能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉-语言模型 时间推理 时间方向 心理物理学 视频理解
📋 核心要点
- 现有视觉-语言模型在理解视频时间信息方面存在不足,缺乏有效评估方法。
- 提出AoT-PsyPhyBENCH基准,通过判断视频正反播放来评估模型的时间方向理解能力。
- 实验表明,现有VLMs在时间方向判断任务上表现不佳,远低于人类水平,凸显了模型在时间推理方面的差距。
📝 摘要(中文)
现代视觉-语言模型(VLMs)在多模态任务中表现出色,但它们对视频中时间信息的掌握仍然薄弱,并且缺乏充分的评估。本文通过一个看似简单但具有启发性的挑战来探究这一差距:判断时间箭头(AoT),即判断一个短视频片段是正向播放还是反向播放。我们引入了AoT-PsyPhyBENCH,这是一个经过心理物理学验证的基准,用于测试VLMs是否能够使用与人类相同的刺激和行为基线来推断自然视频中的时间方向。对开放权重和专有、推理和非推理VLMs的全面评估表明,大多数模型的性能接近随机水平,即使是最好的模型也远远落后于人类在物理上不可逆转的过程(例如,自由落体、扩散/爆炸)和因果手动操作(除法/加法)上的准确性,而人类几乎可以立即识别这些过程。这些结果突出了当前多模态系统中的一个根本差距:虽然它们捕获了丰富的视觉-语义相关性,但它们缺乏时间连续性和因果理解所需的归纳偏置。我们发布了AoT-PsyPhyBENCH的代码和数据,以鼓励VLMs在物理和时间推理能力方面取得进一步进展。
🔬 方法详解
问题定义:论文旨在解决视觉-语言模型(VLMs)在理解视频时间信息方面的不足,特别是缺乏对时间方向(时间箭头)的理解。现有方法难以有效评估VLMs的时间推理能力,缺乏一个标准化的、与人类认知对齐的评估基准。
核心思路:论文的核心思路是借鉴心理物理学实验方法,设计一个判断视频正反播放的简单任务,以此来评估VLMs对时间方向的理解能力。这种方法模拟了人类对时间流逝的直观感知,能够更直接地反映模型的时间推理能力。
技术框架:AoT-PsyPhyBENCH基准包含一系列短视频片段,涵盖物理上不可逆转的过程(如自由落体、爆炸)和因果手动操作(如加法、除法)。VLMs需要判断每个视频片段是正向播放还是反向播放。基准还提供了人类行为基线数据,用于对比模型性能。评估流程包括:1) 将视频输入VLMs;2) 模型输出时间方向的判断结果;3) 将模型结果与人类基线进行对比分析。
关键创新:该论文的关键创新在于:1) 提出了一个基于心理物理学的评估基准AoT-PsyPhyBENCH,该基准与人类认知对齐,能够更有效地评估VLMs的时间推理能力;2) 系统性地评估了多种主流VLMs在时间方向判断任务上的表现,揭示了现有模型在时间推理方面的不足;3) 公开了基准数据集和评估代码,促进了该领域的研究进展。与现有方法相比,AoT-PsyPhyBENCH更侧重于评估模型对时间流逝的直观理解,而非仅仅是识别视频中的动作或事件。
关键设计:AoT-PsyPhyBENCH中的视频片段经过精心挑选,确保包含清晰的时间方向线索。视频时长较短,避免模型过度依赖场景上下文信息。基准还考虑了不同类型的视频内容,包括物理过程和人类活动,以全面评估模型的时间推理能力。评估指标主要采用准确率,即模型正确判断视频播放方向的比例。论文没有特别提及损失函数或网络结构的设计,因为重点在于评估现有模型,而非提出新的模型架构。
📊 实验亮点
实验结果表明,大多数VLMs在AoT-PsyPhyBENCH上的表现接近随机水平,远低于人类的准确率。即使是性能最好的模型,在物理上不可逆转的过程和因果手动操作上的准确率也显著低于人类。例如,人类在判断自由落体视频的时间方向时几乎达到100%的准确率,而VLMs的准确率则远低于此。这些结果表明,现有VLMs在时间推理方面存在显著差距。
🎯 应用场景
该研究成果可应用于提升视频内容理解、视频编辑、机器人导航等领域。例如,在视频监控中,模型可以判断异常事件的发生方向,从而更准确地进行预警。在机器人领域,模型可以帮助机器人理解环境变化的时间顺序,从而更好地进行决策和规划。未来,该研究有望推动VLMs在时间推理方面的能力,使其能够更好地理解和利用视频中的时间信息。
📄 摘要(原文)
Modern vision-language models (VLMs) excel at many multimodal tasks, yet their grasp of temporal information in video remains weak and, crucially, under-evaluated. We probe this gap with a deceptively simple but revealing challenge: judging the arrow of time (AoT)-whether a short clip is played forward or backward. We introduce AoT-PsyPhyBENCH, a psychophysically validated benchmark that tests whether VLMs can infer temporal direction in natural videos using the same stimuli and behavioral baselines established for humans. Our comprehensive evaluation of open-weight and proprietary, reasoning and non-reasoning VLMs reveals that most models perform near chance, and even the best lag far behind human accuracy on physically irreversible processes (e.g., free fall, diffusion/explosion) and causal manual actions (division/addition) that humans recognize almost instantly. These results highlight a fundamental gap in current multimodal systems: while they capture rich visual-semantic correlations, they lack the inductive biases required for temporal continuity and causal understanding. We release the code and data for AoT-PsyPhyBENCH to encourage further progress in the physical and temporal reasoning capabilities of VLMs.