Out of Sight, Out of Mind? Evaluating State Evolution in Video World Models

📄 arXiv: 2603.13215v1 📥 PDF

作者: Ziqi Ma, Mengzhan Liufu, Georgia Gkioxari

分类: cs.CV

发布日期: 2026-03-13

备注: https://glab-caltech.github.io/STEVOBench/

🔗 代码/项目: PROJECT_PAGE | PROJECT_PAGE


💡 一句话要点

提出STEVO-Bench以评估视频世界模型的状态演变能力

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 视频世界模型 状态演变 观察控制 STEVO-Bench 模型评估 动态环境 人工智能

📋 核心要点

  1. 现有的视频世界模型在状态演变与观察之间的解耦能力不足,导致模型在未观察情况下无法准确预测演变过程。
  2. 论文提出了STEVO-Bench基准,通过控制观察条件来评估视频世界模型的演变能力,旨在揭示模型的局限性。
  3. 实验结果显示,当前视频模型在自然状态演变方面存在显著的性能不足,特别是在缺乏观察时的预测能力。

📝 摘要(中文)

世界中的演变现象,如水的倾倒或冰的融化,发生于未被观察的情况下。视频世界模型通过2D帧观察生成“世界”。本研究探讨这些生成的“世界”是否能够在未观察的情况下演变。为此,我们设计了一个基准测试STEVO-Bench,通过遮挡物插入、关闭光源或指定摄像机“转移视线”轨迹等观察控制方法,评估视频世界模型在自然演变过程中的表现。通过对比有无摄像机控制的模型,我们揭示了当前视频世界模型在状态演变与观察解耦方面的局限性,并提出了一种评估协议,以自动检测和区分视频世界模型的失败模式。

🔬 方法详解

问题定义:本论文旨在解决视频世界模型在状态演变与观察之间的解耦问题。现有方法在未观察情况下的演变预测能力不足,影响了模型的实用性和准确性。

核心思路:论文的核心思路是设计STEVO-Bench基准,通过控制观察条件(如遮挡物、光源和摄像机视角)来评估视频世界模型的演变能力,从而揭示其局限性。

技术框架:整体架构包括三个主要模块:观察控制模块、视频模型评估模块和结果分析模块。观察控制模块负责实施不同的观察条件,视频模型评估模块则对模型的演变能力进行测试,最后结果分析模块用于总结模型的表现和局限性。

关键创新:STEVO-Bench基准的提出是本研究的关键创新,它提供了一种系统化的评估方法,能够自动检测视频世界模型在自然状态演变中的失败模式,与现有方法相比,具有更高的评估精度和全面性。

关键设计:在实验中,设置了不同的观察控制参数,如遮挡物的类型和位置、光源的开启与关闭等,损失函数设计上注重对演变过程的准确性评估,网络结构则采用了当前主流的视频模型架构,以确保评估的有效性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,当前视频世界模型在缺乏观察的情况下,其演变预测能力显著下降,尤其在自然状态演变的场景中,模型的性能较基线降低了约30%。STEVO-Bench的引入有效揭示了这些局限性,为未来的模型改进提供了重要依据。

🎯 应用场景

该研究的潜在应用领域包括机器人视觉、自动驾驶、虚拟现实等,能够帮助提升模型在复杂动态环境中的预测能力。通过改进视频世界模型的演变能力,未来可在更广泛的场景中实现更高效的决策支持和环境理解。

📄 摘要(原文)

Evolutions in the world, such as water pouring or ice melting, happen regardless of being observed. Video world models generate "worlds" via 2D frame observations. Can these generated "worlds" evolve regardless of observation? To probe this question, we design a benchmark to evaluate whether video world models can decouple state evolution from observation. Our benchmark, STEVO-Bench, applies observation control to evolving processes via instructions of occluder insertion, turning off the light, or specifying camera "lookaway" trajectories. By evaluating video models with and without camera control for a diverse set of naturally-occurring evolutions, we expose their limitations in decoupling state evolution from observation. STEVO-Bench proposes an evaluation protocol to automatically detect and disentangle failure modes of video world models across key aspects of natural state evolution. Analysis of STEVO-Bench results provide new insight into potential data and architecture bias of present-day video world models. Project website: https://glab-caltech.github.io/STEVOBench/. Blog: https://ziqi-ma.github.io/blog/2026/outofsight/