Can Vision-Language Models Solve the Shell Game?

作者: Tiedong Liu, Wee Sun Lee

分类: cs.CV, cs.CL

发布日期: 2026-03-09

💡 一句话要点

提出SGCoT方法，解决视觉语言模型在视觉实体跟踪任务中的时序推理难题

🎯 匹配领域: 支柱八：物理动画 (Physics-based Animation) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 视觉实体跟踪 时序推理 思维链 VET-Bench

📋 核心要点

现有视觉语言模型在视觉实体跟踪方面存在不足，过度依赖静态特征，缺乏时序推理能力。
提出时空接地的思维链(SGCoT)方法，通过生成显式的中间状态来表示对象轨迹，增强时序推理。
在VET-Bench测试中，SGCoT方法取得了超过90%的准确率，显著优于现有模型，无需外部工具。

📝 摘要（中文）

视觉实体跟踪是人类固有的认知能力，但对于视觉语言模型(VLMs)来说仍然是一个关键瓶颈。现有的视频基准测试中的视觉捷径常常掩盖了这一缺陷。我们引入了VET-Bench，这是一个合成的诊断测试平台，其特点是视觉上完全相同的对象，需要完全通过时空连续性进行跟踪。实验表明，当前最先进的VLMs在VET-Bench上的表现接近或等于随机水平，暴露了一个根本性的局限：过度依赖静态的帧级别特征，并且无法随时间维护实体表征。我们提供了一个与状态跟踪问题相关的理论分析，证明了由于表达能力的限制，固定深度的基于Transformer的VLMs在没有中间监督的情况下，在跟踪无法区分的对象方面存在根本性的限制。为了解决这个问题，我们提出了时空接地的思维链(SGCoT)：生成对象轨迹作为显式的中间状态。利用Molmo2的对象跟踪能力，我们通过在合成的纯文本数据上进行微调以进行对齐，从而引发SGCoT推理。我们的方法在VET-Bench上实现了超过90%的最先进的准确率，证明了VLMs可以可靠地端到端地解决视频shell-game任务，而无需外部工具。我们的代码和数据可在https://vetbench.github.io 获得。

🔬 方法详解

问题定义：论文旨在解决视觉语言模型（VLMs）在视觉实体跟踪任务中的不足。现有VLMs在处理具有视觉歧义的对象时，难以维持对象的状态表征，导致跟踪失败。现有的视频基准测试往往存在视觉捷径，掩盖了这一问题。因此，需要一个专门的测试平台来评估VLMs的时序推理能力。

核心思路：论文的核心思路是引入“时空接地的思维链”（Spatiotemporal Grounded Chain-of-Thought, SGCoT）。SGCoT通过显式地生成对象轨迹作为中间状态，来增强VLMs的时序推理能力。这种方法模拟了人类在跟踪对象时的逐步推理过程，从而克服了VLMs对静态帧级别特征的过度依赖。

技术框架：整体框架包括以下几个阶段：1) 使用VET-Bench数据集进行评估，该数据集包含视觉上相同的对象，需要通过时空连续性进行跟踪。2) 提出SGCoT方法，该方法通过生成对象轨迹作为中间状态来增强时序推理。3) 利用Molmo2的对象跟踪能力，通过在合成的纯文本数据上进行微调以进行对齐，从而引发SGCoT推理。4) 在VET-Bench上评估SGCoT方法的性能。

关键创新：最重要的技术创新点在于SGCoT方法。与现有方法相比，SGCoT不是直接预测最终结果，而是通过生成中间状态（对象轨迹）来逐步推理。这种方法使得VLMs能够更好地理解视频中的时序关系，从而提高跟踪的准确性。此外，论文还通过理论分析证明了固定深度的Transformer-based VLMs在跟踪无法区分的对象时存在根本性的限制。

关键设计：SGCoT的关键设计包括：1) 使用Molmo2作为对象跟踪器，提供对象的位置信息。2) 使用合成的纯文本数据进行微调，以对齐VLMs的语言和视觉表征。3) 设计合适的提示语（prompts）来引导VLMs生成对象轨迹。4) 使用交叉熵损失函数来训练VLMs，使其能够准确地预测对象的位置。

📊 实验亮点

实验结果表明，SGCoT方法在VET-Bench测试中取得了超过90%的准确率，显著优于现有的视觉语言模型。这表明SGCoT方法能够有效地解决视觉实体跟踪中的时序推理难题。此外，该方法无需外部工具，可以端到端地解决视频shell-game任务。

🎯 应用场景

该研究成果可应用于机器人导航、自动驾驶、视频监控等领域。通过提高视觉语言模型在视觉实体跟踪方面的能力，可以使机器人在复杂环境中更好地理解和交互。例如，在机器人导航中，机器人可以利用SGCoT方法跟踪行人或其他移动物体，从而避免碰撞或提供更好的服务。

📄 摘要（原文）

Visual entity tracking is an innate cognitive ability in humans, yet it remains a critical bottleneck for Vision-Language Models (VLMs). This deficit is often obscured in existing video benchmarks by visual shortcuts. We introduce VET-Bench, a synthetic diagnostic testbed featuring visually identical objects that necessitate tracking exclusively through spatiotemporal continuity. Our experiments reveal that current state-of-the-art VLMs perform at or near chance level on VET-Bench, exposing a fundamental limitation: an over-reliance on static frame-level features and a failure to maintain entity representations over time. We provide a theoretical analysis drawing connections to the state-tracking problem, proving that fixed-depth transformer-based VLMs are fundamentally limited in tracking indistinguishable objects without intermediate supervision due to expressivity constraints. To address this, we propose Spatiotemporal Grounded Chain-of-Thought (SGCoT): generating object trajectories as explicit intermediate states. Leveraging Molmo2's object tracking ability, we elicit SGCoT reasoning by fine-tuning on synthesized text-only data for alignment. Our method achieves state-of-the-art accuracy exceeding 90% on VET-Bench, demonstrating that VLMs can reliably solve the video shell-game task end-to-end without external tools. Our code and data are available at https://vetbench.github.io .

Can Vision-Language Models Solve the Shell Game?

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理