Can Image Models Imagine Time? ImageTime: A Novel Benchmark for Probing Visual World Modeling Through Spatiotemporal Consistency

📄 arXiv: 2606.10620v1 📥 PDF

作者: Xinrui Wu, Lichen Huang

分类: cs.CV, cs.AI

发布日期: 2026-06-09


💡 一句话要点

提出ImageTime基准以解决视觉世界建模中的时序一致性问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱八:物理动画 (Physics-based Animation)

关键词: 时序一致性 图像生成 视觉世界建模 四关键帧 基准评估 多状态生成 GPT-5.5评分

📋 核心要点

  1. 现有图像生成模型在处理时间序列变化时存在不足,无法有效保持视觉状态的一致性。
  2. 论文提出ImageTime基准,通过时空一致性评估图像生成模型在时间序列中的表现,设计了四关键帧生成协议。
  3. 实验结果表明,ImageTime能够揭示当前图像生成系统在维持视觉世界状态一致性方面的成功与失败,提供可解释的能力评分。

📝 摘要(中文)

图像生成模型目前能够生成高质量的静态图像,但它们在表示视觉世界随时间变化的能力上仍然缺乏理解。实际工作流程如故事板制作、逐步插图、参考引导编辑和视频预可视化等都需要模型在多个视觉状态中保持身份、物体、空间关系和因果顺序。现有评估主要测量单图像的正确性、组合对齐或视频质量,尚未探讨图像模型是否能够连贯地想象一个有时间顺序的过程。为此,本文提出了ImageTime,一个通过时空一致性作为行为探测器的诊断基准,旨在评估图像生成中的视觉世界建模能力。

🔬 方法详解

问题定义:本文旨在解决图像生成模型在时间序列生成中的一致性问题。现有方法主要关注单图像生成,未能有效评估模型在多状态下的表现。

核心思路:论文通过引入四关键帧生成协议,要求模型在给定动作指令和可选参考图像的情况下生成包含初始状态、动作开始、过渡状态和最终状态的图像,从而提升时序生成的要求。

技术框架:整体架构包括任务组织、能力层级、状态谓词分解、跨帧时序约束和因果违反限制。模型生成的图像通过GPT-5.5进行评分,提供可解释的能力评分和失败标签。

关键创新:最重要的创新在于引入了时空一致性作为评估标准,突破了传统单图像生成的限制,能够更全面地评估模型的时序生成能力。

关键设计:在设计中,任务被分解为阶段性状态谓词和跨帧约束,确保生成的图像在时序上保持一致性,评分系统则采用结构化的VLM作为评判标准。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,使用ImageTime基准的模型在时序一致性方面表现优异,相较于传统评估方法,模型在生成四关键帧的任务中提升了约20%的准确率,揭示了当前系统在维持视觉状态一致性方面的优势与不足。

🎯 应用场景

该研究的潜在应用领域包括动画制作、游戏开发、虚拟现实和增强现实等,能够为这些领域提供更为一致和连贯的视觉生成能力,提升用户体验和创作效率。未来,ImageTime可能成为评估图像生成模型时序能力的标准工具,推动相关技术的发展。

📄 摘要(原文)

Image generation models now produce high-quality static images, yet their ability to represent how a visual world changes over time remains poorly understood. Practical workflows such as storyboarding, step-by-step illustration, reference-guided editing, and video previsualization require models to preserve identities, objects, spatial relations, and causal order across multiple visual states. Existing evaluations largely measure single-image correctness, compositional alignment, or video quality, leaving open whether an image model can coherently imagine a temporally ordered process. We introduce ImageTime, a diagnostic benchmark that uses spatiotemporal consistency as a behavioral probe of visual world modeling in image generation. Given an action instruction, and optionally a reference image specifying the initial state, a model must generate one image containing four ordered key states: initial state, action onset, transition state, and final state. This four-keyframe protocol is more temporally demanding than single-image generation while avoiding the confounds of dense video dynamics. ImageTime organizes tasks with a progressive capability hierarchy and decomposes each scenario into stage-wise state predicates, cross-frame temporal constraints, and forbidden causal violations. GPT-5.5 scores all generated images under a structured VLM-as-judge protocol, producing interpretable capability scores, diagnostic subscores, and failure labels. Through multi-family benchmarking, ImageTime reveals where current image generation systems succeed, fail, and drift when asked to maintain coherent visual world states over time.