TraversalBench: Challenging Paths to Follow for Vision Language Models

📄 arXiv: 2604.10999v1 📥 PDF

作者: Clara Petrova, Zhuo Chen, Marin Soljačić

分类: cs.CV

发布日期: 2026-04-13


💡 一句话要点

TraversalBench:用于评估视觉语言模型在复杂视觉路径上推理能力的新基准

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 路径规划 视觉推理 多模态学习 基准测试

📋 核心要点

  1. 现有视觉语言模型在复杂视觉路径推理方面存在不足,缺乏专门的评估基准。
  2. 提出TraversalBench基准,通过控制路径结构因素,精确评估模型在复杂视觉路径上的遍历能力。
  3. 实验表明,自相交是影响模型性能的主要因素,TraversalBench可诊断模型在持续视觉处理中的问题。

📝 摘要(中文)

视觉语言模型(VLMs)在许多多模态基准测试中表现出色。然而,遵循复杂视觉路径的能力——人类观察者通常认为这是一项简单的任务——仍然没有得到充分的测试。我们引入了TraversalBench,这是一个用于精确视觉路径遍历的受控基准。每个实例包含一条连续的折线、一个唯一的起始标记和放置在路径顶点上的标记;任务是恢复从起点到终点遍历路径时遇到的精确有序序列。该基准显式地平衡了关键的路径结构因素,包括自相交计数、曲折度、顶点计数和附近的混淆线,同时最大限度地减少对OCR、世界知识和开放式规划的依赖。我们发现自相交是困难的主要来源。首次交叉分析表明,错误是高度局部化的:性能在首次交叉之前相对稳定,然后在模型必须解决正确的延续时急剧下降。相比之下,附近的混淆线会产生较弱的持续退化,并随着重复暴露而加剧。这些分析使TraversalBench成为一个有用的诊断工具,用于识别模型是否遭受类似人类的失败或其他持续视觉处理中的崩溃。一个辅助的阅读顺序基准进一步揭示了对与从左到右序列化兼容的布局的一致偏好,但并没有解释路径复杂性的主要影响。总之,这些结果将TraversalBench定位为路径忠实视觉推理的受控诊断,并作为在模糊、杂乱和干扰结构下研究多模态空间推理的有用测试平台。更广泛地说,我们将TraversalBench定位为对VLMs持续视觉基础基准测试这一仍然有限的领域的贡献。

🔬 方法详解

问题定义:现有视觉语言模型在理解和遵循复杂视觉路径方面存在困难,缺乏一个专门的、可控的基准来评估模型在这一方面的能力。现有方法难以区分模型是因为缺乏空间推理能力,还是因为其他因素(如OCR错误、世界知识不足)导致失败。

核心思路:TraversalBench的核心思路是创建一个受控的、精确的视觉路径遍历基准,通过显式地平衡路径的结构因素(如自相交、曲折度、顶点数量等),并最小化对OCR、世界知识和开放式规划的依赖,从而更准确地评估模型在视觉路径推理方面的能力。

技术框架:TraversalBench基准包含以下组成部分:1)一组连续的折线路径,每条路径都有唯一的起始标记和顶点标记;2)评估任务:模型需要按照正确的顺序恢复从起点到终点遍历路径时遇到的顶点标记序列;3)评估指标:用于衡量模型恢复序列的准确性。此外,还设计了一个辅助的阅读顺序基准,用于评估模型对不同布局的偏好。

关键创新:TraversalBench的关键创新在于其对路径结构因素的显式控制和平衡,以及对OCR、世界知识等因素的最小化依赖。这使得该基准能够更准确地评估模型在视觉路径推理方面的能力,并诊断模型在持续视觉处理中存在的问题。此外,首次交叉分析揭示了自相交对模型性能的显著影响。

关键设计:TraversalBench通过参数化方式生成路径,可以控制自相交数量、曲折度、顶点数量等关键参数。起始标记和顶点标记的设计需要保证唯一性和易于识别,同时避免过度依赖OCR。评估指标采用序列匹配的准确率,可以精确衡量模型恢复路径的正确性。辅助的阅读顺序基准通过改变路径的布局方向,评估模型对不同布局的偏好。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,自相交是影响模型性能的主要因素,模型在首次交叉点附近表现出明显的性能下降。附近的混淆线也会对模型性能产生负面影响,且影响会随着重复暴露而加剧。辅助的阅读顺序基准显示模型倾向于从左到右阅读,但不能完全解释路径复杂性的影响。这些结果表明TraversalBench能够有效诊断模型在视觉路径推理方面的不足。

🎯 应用场景

TraversalBench可用于评估和改进视觉语言模型在机器人导航、自动驾驶、图像理解、增强现实等领域的应用。通过诊断模型在复杂视觉路径推理方面的不足,可以指导模型设计,提升其在真实场景中的表现。该基准也有助于研究多模态空间推理,为开发更智能的AI系统提供支持。

📄 摘要(原文)

Vision-language models (VLMs) perform strongly on many multimodal benchmarks. However, the ability to follow complex visual paths -- a task that human observers typically find straightforward -- remains under-tested. We introduce TraversalBench, a controlled benchmark for exact visual path traversal. Each instance contains a single continuous polyline, a unique start marker, and markers placed at path vertices; the task is to recover the exact ordered sequence encountered when traversing the path from start to finish. The benchmark explicitly balances key path-structural factors including self-intersection count, tortuosity, vertex count, and nearby confounding lines, while minimizing reliance on OCR, world knowledge, and open-ended planning. We find that self-intersections are the dominant source of difficulty. A first-crossing analysis shows that errors are sharply localized: performance is relatively stable immediately before the first crossing, then drops steeply when the model must resolve the correct continuation. By contrast, nearby confounding lines produce a weaker persistent degradation that compounds with repeated exposure. These analyses make TraversalBench a useful diagnostic for identifying whether models suffer from human-like failures or other breakdowns in sustained visual processing. An auxiliary reading-order benchmark further reveals a consistent preference for layouts compatible with left-to-right serialization, while not explaining away the main effects of path complexity. Together, these results position TraversalBench as a controlled diagnostic of path-faithful visual reasoning and as a useful testbed for studying multimodal spatial reasoning under ambiguity, clutter, and distractor structure. More broadly, we position TraversalBench as a contribution to the still-limited area of sustained visual grounding benchmarks for VLMs.