Chain-of-Sketch: Enabling Global Visual Reasoning

📄 arXiv: 2410.08165v2 📥 PDF

作者: Aryo Lotfi, Enrico Fini, Samy Bengio, Moin Nabi, Emmanuel Abbe

分类: cs.LG, cs.CV

发布日期: 2024-10-10 (更新: 2025-06-26)

备注: additional experiments added, title changed from "Visual Scratchpads: Enabling Global Reasoning in Vision" to "Chain-of-Sketch: Enabling Global Visual Reasoning"


💡 一句话要点

提出链式草图(CoS)方法,提升视觉模型在全局推理任务上的性能

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 全局视觉推理 链式草图 视觉模型 马尔可夫结构 分布外泛化

📋 核心要点

  1. 现有视觉模型在全局推理任务中表现不佳,尤其是在局部特征不提供有效信息的场景下,暴露了模型在处理复杂关系上的不足。
  2. 论文提出链式草图(CoS)方法,将复杂视觉任务分解为一系列中间视觉步骤,类似于语言模型中的思维链,以提升学习效率。
  3. 实验表明,具有马尔可夫结构的归纳CoS方法,在分布外泛化方面表现更优,即使使用较小模型也能取得良好效果。

📝 摘要(中文)

现代视觉模型在局部特征提供关键信息的基准测试中取得了显著成功。目前,人们越来越关注需要更多全局推理的任务,在这些任务中,局部特征无法提供有效信息。Minsky和Papert在1969年通过他们的连通性研究提出了这类任务,揭示了感知器模型的局限性。本文介绍了一组扩展的全局视觉数据集,包括图、字符串、迷宫和图像网格。实验表明,大型视觉模型仍然难以有效地学习这些任务。同样,最先进的多模态LLM在这些数据集上的表现也很差。我们通过“全局度”指标来解释这种学习效率低下。为了缓解这个问题,我们提出了一种名为链式草图(CoS)的方法。类似于语言模型中使用的思维链和草稿纸技术,CoS将原始任务分解为中间视觉步骤,以帮助学习复杂任务。此外,我们表明并非所有CoS策略都表现同样出色。我们的关键见解是在CoS帧上施加马尔可夫结构。这导致了“归纳CoS”的引入,与非归纳变体相比,它实现了更好的分布外泛化,并且即使使用较小的模型也能表现良好。

🔬 方法详解

问题定义:论文旨在解决视觉模型在全局推理任务中的低效问题。现有方法,包括大型视觉模型和多模态LLM,在处理需要理解全局结构和关系的视觉任务(如图、字符串、迷宫等)时,表现不佳。这些任务对局部特征的依赖性较低,使得模型难以有效学习。

核心思路:论文的核心思路是将复杂的全局推理任务分解为一系列更简单的中间视觉步骤,形成一个“链式草图”(Chain-of-Sketch, CoS)。通过逐步推理,模型可以更容易地学习到全局结构和关系,从而提高整体性能。类似于语言模型中的思维链(Chain-of-Thought),CoS旨在引导模型逐步解决问题。

技术框架:CoS方法的核心在于将原始视觉任务分解为一系列中间视觉表示(草图)。模型首先生成第一个草图,然后基于该草图生成下一个草图,以此类推,直到最终解决原始任务。整个过程可以看作是一个马尔可夫链,其中每个草图的生成只依赖于前一个草图。论文进一步提出了“归纳CoS”,通过施加马尔可夫结构来约束草图的生成过程。

关键创新:论文的关键创新在于引入了链式草图(CoS)的概念,并将其应用于全局视觉推理任务。与传统的端到端方法不同,CoS通过分解任务来简化学习过程。此外,归纳CoS通过施加马尔可夫结构,进一步提高了模型的泛化能力。

关键设计:归纳CoS的关键设计在于其马尔可夫结构。具体来说,模型被训练成生成一系列草图,其中每个草图的生成只依赖于前一个草图。这可以通过使用循环神经网络(RNN)或Transformer等序列模型来实现。损失函数的设计需要鼓励模型生成有意义的中间草图,并确保最终的输出能够解决原始任务。论文中可能还涉及一些超参数的调整,例如草图的数量、每个草图的表示维度等。具体的网络结构和损失函数细节需要参考论文原文。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,链式草图(CoS)方法在多个全局视觉数据集上显著优于现有方法。特别是,具有马尔可夫结构的归纳CoS方法,在分布外泛化方面表现更佳,即使使用较小的模型也能取得良好的性能。具体的数据提升幅度未知,需要参考论文原文。

🎯 应用场景

该研究成果可应用于机器人导航、图像理解、视觉问答等领域。例如,机器人可以在复杂环境中利用CoS方法进行路径规划,将复杂的导航任务分解为一系列简单的视觉步骤。在图像理解方面,CoS可以帮助模型更好地理解图像中的全局结构和关系,从而提高图像分类、目标检测等任务的性能。此外,该方法还有潜力应用于医疗影像分析、遥感图像处理等领域。

📄 摘要(原文)

Modern vision models have achieved remarkable success in benchmarks where local features provide critical information about the target. There is now a growing interest in tackling tasks requiring more global reasoning, where local features do not provide significant information. Minsky and Papert put forward such tasks in 1969 with their connectivity study, exposing the limitations of the perceptron model. In this paper, we introduce an expanded set of global visual datasets involving graphs, strings, mazes, and image grids. We show that large vision models still struggle to learn these tasks efficiently. Similarly, state-of-the-art multi-modal LLMs perform poorly on these datasets. We explain this learning inefficiency by means of the 'globality degree' measure. To mitigate this, we propose a method called chain-of-sketch (CoS). Similar to the chain-of-thought and scratchpad techniques used in language models, CoS breaks the original task into intermediate visual steps to help learn a complex task. In addition, we show that not all CoS strategies perform equally well. Our key insight is to impose a Markovian structure on the CoS frames. This leads to the introduction of 'inductive CoS' which achieves better out-of-distribution generalization and performs well even with smaller models compared to non-inductive variants.