Which Way Does Time Flow? A Psychophysics-Grounded Evaluation for Vision-Language Models

📄 arXiv: 2510.26241v2 📥 PDF

作者: Shiho Matta, Lis Kanashiro Pereira, Peitao Han, Fei Cheng, Shigeru Kitazawa

分类: cs.CV, cs.CL

发布日期: 2025-10-30 (更新: 2025-11-05)

备注: 10 pages


💡 一句话要点

提出AoT-PsyPhyBENCH基准,评估视觉-语言模型对视频时间流逝方向的理解能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言模型 时间推理 心理物理学 视频理解 因果关系

📋 核心要点

  1. 现有视觉-语言模型在时间信息理解方面存在不足,缺乏有效评估方法,难以准确判断视频时间流逝方向。
  2. 论文提出AoT-PsyPhyBENCH基准,该基准基于心理物理学验证,模拟人类感知,评估模型对时间方向的理解。
  3. 实验表明,现有VLMs在判断时间流逝方向上表现不佳,与人类水平差距显著,尤其是在物理过程和因果关系理解方面。

📝 摘要(中文)

现代视觉-语言模型(VLMs)在许多多模态任务中表现出色,但它们对视频中时间信息的掌握仍然薄弱,并且缺乏充分的评估。我们通过一个看似简单但具有启发性的挑战来探究这一差距:判断时间箭头(AoT),即判断一个短视频片段是正向播放还是反向播放。我们引入了AoT-PsyPhyBENCH,这是一个经过心理物理学验证的基准,用于测试VLMs是否能够使用与人类相同的刺激和行为基线来推断自然视频中的时间方向。对开放权重和专有、推理和非推理VLMs的全面评估表明,大多数模型的性能接近随机水平,即使是最好的模型也远远落后于人类在物理上不可逆转的过程(例如,自由落体、扩散/爆炸)和因果手动操作(除法/加法)上的准确性,而人类几乎可以立即识别这些过程。这些结果突出了当前多模态系统中的一个根本差距:虽然它们捕获了丰富的视觉-语义相关性,但它们缺乏时间连续性和因果理解所需的归纳偏置。我们发布了AoT-PsyPhyBENCH的代码和数据,以鼓励VLMs在物理和时间推理能力方面取得进一步进展。

🔬 方法详解

问题定义:论文旨在解决视觉-语言模型(VLMs)在理解视频时间流逝方向上的不足。现有方法缺乏针对性的评估基准,无法有效衡量模型对时间连续性和因果关系的理解能力。模型难以区分视频是正向播放还是反向播放,尤其是在涉及物理过程和因果关系的场景中。

核心思路:论文的核心思路是构建一个基于心理物理学验证的基准测试,模拟人类对时间流逝方向的感知。通过使用与人类相同的刺激和行为基线,可以更准确地评估VLMs在时间推理方面的能力。该基准侧重于物理上不可逆转的过程和因果手动操作,这些场景对人类来说易于理解,但对模型来说具有挑战性。

技术框架:AoT-PsyPhyBENCH基准包含一系列短视频片段,这些片段涵盖了各种物理过程(如自由落体、扩散、爆炸)和因果手动操作(如除法、加法)。每个视频片段都呈现正向和反向两种版本。VLMs的任务是判断每个视频片段是正向播放还是反向播放。基准还提供了人类行为数据作为对比基线。

关键创新:该论文的关键创新在于提出了一个心理物理学验证的基准测试,该基准更贴近人类的感知方式,能够更准确地评估VLMs在时间推理方面的能力。与以往的基准测试相比,AoT-PsyPhyBENCH更侧重于物理过程和因果关系,这些方面对人类来说是直观的,但对模型来说具有挑战性。

关键设计:AoT-PsyPhyBENCH的关键设计包括:1) 视频片段的选择,确保涵盖各种物理过程和因果手动操作;2) 视频片段的长度控制,使其足够短,以避免模型通过其他线索(如物体运动轨迹)来判断时间方向;3) 人类行为数据的收集,作为模型性能的对比基线;4) 评估指标的选择,使用准确率来衡量模型判断时间方向的正确率。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,现有VLMs在AoT-PsyPhyBENCH基准上的表现远低于人类水平。即使是最先进的VLMs,在判断物理上不可逆转的过程和因果手动操作的时间方向时,准确率也接近随机水平。这表明现有模型缺乏对时间连续性和因果关系的有效建模能力,存在显著的提升空间。

🎯 应用场景

该研究成果可应用于提升视频内容理解、智能监控、机器人导航等领域。通过提高模型对时间流逝方向的理解,可以改善视频分析的准确性和可靠性,例如在监控视频中识别异常事件,或在机器人导航中预测物体运动轨迹。此外,该基准可促进视觉-语言模型在物理和因果推理方面的研究。

📄 摘要(原文)

Modern vision-language models (VLMs) excel at many multimodal tasks, yet their grasp of temporal information in video remains weak and, crucially, under-evaluated. We probe this gap with a deceptively simple but revealing challenge: judging the arrow of time (AoT)-whether a short clip is played forward or backward. We introduce AoT-PsyPhyBENCH, a psychophysically validated benchmark that tests whether VLMs can infer temporal direction in natural videos using the same stimuli and behavioral baselines established for humans. Our comprehensive evaluation of open-weight and proprietary, reasoning and non-reasoning VLMs reveals that most models perform near chance, and even the best lag far behind human accuracy on physically irreversible processes (e.g., free fall, diffusion/explosion) and causal manual actions (division/addition) that humans recognize almost instantly. These results highlight a fundamental gap in current multimodal systems: while they capture rich visual-semantic correlations, they lack the inductive biases required for temporal continuity and causal understanding. We release the code and data for AoT-PsyPhyBENCH to encourage further progress in the physical and temporal reasoning capabilities of VLMs.