Can Vision-Language Models Solve the Shell Game?

📄 arXiv: 2603.08436v1 📥 PDF

作者: Tiedong Liu, Wee Sun Lee

分类: cs.CV, cs.CL

发布日期: 2026-03-09


💡 一句话要点

提出SGCoT方法,解决视觉语言模型在视觉实体跟踪任务中的时序推理难题

🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 视觉实体跟踪 时序推理 思维链 VET-Bench

📋 核心要点

  1. 现有视觉语言模型在视觉实体跟踪方面存在不足,过度依赖静态特征,缺乏时序推理能力。
  2. 提出时空接地的思维链(SGCoT)方法,通过生成显式的中间状态来表示对象轨迹,增强时序推理。
  3. 在VET-Bench测试中,SGCoT方法取得了超过90%的准确率,显著优于现有模型,无需外部工具。

📝 摘要(中文)

视觉实体跟踪是人类固有的认知能力,但对于视觉语言模型(VLMs)来说仍然是一个关键瓶颈。现有的视频基准测试中的视觉捷径常常掩盖了这一缺陷。我们引入了VET-Bench,这是一个合成的诊断测试平台,其特点是视觉上完全相同的对象,需要完全通过时空连续性进行跟踪。实验表明,当前最先进的VLMs在VET-Bench上的表现接近或等于随机水平,暴露了一个根本性的局限:过度依赖静态的帧级别特征,并且无法随时间维护实体表征。我们提供了一个与状态跟踪问题相关的理论分析,证明了由于表达能力的限制,固定深度的基于Transformer的VLMs在没有中间监督的情况下,在跟踪无法区分的对象方面存在根本性的限制。为了解决这个问题,我们提出了时空接地的思维链(SGCoT):生成对象轨迹作为显式的中间状态。利用Molmo2的对象跟踪能力,我们通过在合成的纯文本数据上进行微调以进行对齐,从而引发SGCoT推理。我们的方法在VET-Bench上实现了超过90%的最先进的准确率,证明了VLMs可以可靠地端到端地解决视频shell-game任务,而无需外部工具。我们的代码和数据可在https://vetbench.github.io 获得。

🔬 方法详解

问题定义:论文旨在解决视觉语言模型(VLMs)在视觉实体跟踪任务中的不足。现有VLMs在处理具有视觉歧义的对象时,难以维持对象的状态表征,导致跟踪失败。现有的视频基准测试往往存在视觉捷径,掩盖了这一问题。因此,需要一个专门的测试平台来评估VLMs的时序推理能力。

核心思路:论文的核心思路是引入“时空接地的思维链”(Spatiotemporal Grounded Chain-of-Thought, SGCoT)。SGCoT通过显式地生成对象轨迹作为中间状态,来增强VLMs的时序推理能力。这种方法模拟了人类在跟踪对象时的逐步推理过程,从而克服了VLMs对静态帧级别特征的过度依赖。

技术框架:整体框架包括以下几个阶段:1) 使用VET-Bench数据集进行评估,该数据集包含视觉上相同的对象,需要通过时空连续性进行跟踪。2) 提出SGCoT方法,该方法通过生成对象轨迹作为中间状态来增强时序推理。3) 利用Molmo2的对象跟踪能力,通过在合成的纯文本数据上进行微调以进行对齐,从而引发SGCoT推理。4) 在VET-Bench上评估SGCoT方法的性能。

关键创新:最重要的技术创新点在于SGCoT方法。与现有方法相比,SGCoT不是直接预测最终结果,而是通过生成中间状态(对象轨迹)来逐步推理。这种方法使得VLMs能够更好地理解视频中的时序关系,从而提高跟踪的准确性。此外,论文还通过理论分析证明了固定深度的Transformer-based VLMs在跟踪无法区分的对象时存在根本性的限制。

关键设计:SGCoT的关键设计包括:1) 使用Molmo2作为对象跟踪器,提供对象的位置信息。2) 使用合成的纯文本数据进行微调,以对齐VLMs的语言和视觉表征。3) 设计合适的提示语(prompts)来引导VLMs生成对象轨迹。4) 使用交叉熵损失函数来训练VLMs,使其能够准确地预测对象的位置。

📊 实验亮点

实验结果表明,SGCoT方法在VET-Bench测试中取得了超过90%的准确率,显著优于现有的视觉语言模型。这表明SGCoT方法能够有效地解决视觉实体跟踪中的时序推理难题。此外,该方法无需外部工具,可以端到端地解决视频shell-game任务。

🎯 应用场景

该研究成果可应用于机器人导航、自动驾驶、视频监控等领域。通过提高视觉语言模型在视觉实体跟踪方面的能力,可以使机器人在复杂环境中更好地理解和交互。例如,在机器人导航中,机器人可以利用SGCoT方法跟踪行人或其他移动物体,从而避免碰撞或提供更好的服务。

📄 摘要(原文)

Visual entity tracking is an innate cognitive ability in humans, yet it remains a critical bottleneck for Vision-Language Models (VLMs). This deficit is often obscured in existing video benchmarks by visual shortcuts. We introduce VET-Bench, a synthetic diagnostic testbed featuring visually identical objects that necessitate tracking exclusively through spatiotemporal continuity. Our experiments reveal that current state-of-the-art VLMs perform at or near chance level on VET-Bench, exposing a fundamental limitation: an over-reliance on static frame-level features and a failure to maintain entity representations over time. We provide a theoretical analysis drawing connections to the state-tracking problem, proving that fixed-depth transformer-based VLMs are fundamentally limited in tracking indistinguishable objects without intermediate supervision due to expressivity constraints. To address this, we propose Spatiotemporal Grounded Chain-of-Thought (SGCoT): generating object trajectories as explicit intermediate states. Leveraging Molmo2's object tracking ability, we elicit SGCoT reasoning by fine-tuning on synthesized text-only data for alignment. Our method achieves state-of-the-art accuracy exceeding 90% on VET-Bench, demonstrating that VLMs can reliably solve the video shell-game task end-to-end without external tools. Our code and data are available at https://vetbench.github.io .