InterSketch: An Interleaved Reasoning Model with Self-correcting Visual Sketch and Stepwise Reward

📄 arXiv: 2605.26520v1 📥 PDF

作者: Zhiwei Ning, Wenwen Tong, Xiangli Kong, Shengnan Ma, Ziyi Shang, Jingcheng Ni, Tao Hu, Yong Xien Chng, Jixuan Ying, Zehuan Wu, Hanming Deng, Jie Yang, Yuanjie Zheng, Wei Liu, Lewei Lu

分类: cs.CV, cs.AI

发布日期: 2026-05-26


💡 一句话要点

InterSketch:提出一种基于自校正视觉草图和逐步奖励的交错推理模型,提升视觉语言模型在复杂视觉推理任务上的性能。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉推理 视觉语言模型 交错推理 链式思考 强化学习 自校正 视觉草图

📋 核心要点

  1. 现有视觉语言模型在复杂视觉推理任务中表现不足,推理过程过于依赖文本,缺乏深度。
  2. InterSketch通过交错生成视觉草图和文本推理,模拟人类的视觉-文本链式思考,提升推理能力。
  3. InterSketch在视觉推理基准测试中表现出色,甚至超越了Gemini-3-Pro等专有模型。

📝 摘要(中文)

视觉语言模型(VLMs)已经展现出多轮视觉推理能力,但其推理轨迹相对浅显,并且以文本为中心,限制了它们在复杂视觉挑战中的应用。与此相反,类人思维通常涉及具有交错视觉-文本链式思考(VT-CoT)的长程推理。为了弥合这一差距,我们引入了InterSketch,一种交错推理模型,通过自校正和逐步奖励机制来增强VT-CoT能力。InterSketch使用外部工具动态生成中间视觉草图,并将其与文本推理交错,从而能够对长程视觉理解任务进行有效的感知和逻辑推理。具体来说,在第一个冷启动阶段,我们提出了一个合成的高质量交错VT-CoT数据集,并包含一个反思机制,以使模型具有多轮交错推理和自我纠正的能力。在随后的强化学习(RL)阶段,我们设计了一个逐步奖励机制,以减轻长程推理中端到端监督固有的奖励信号稀疏性。在视觉推理基准上的大量实验证明了InterSketch的有效性,甚至优于Gemini-3-Pro等专有模型。

🔬 方法详解

问题定义:现有视觉语言模型在多轮视觉推理任务中存在推理轨迹浅显、过度依赖文本等问题,难以应对复杂的视觉挑战。这些模型缺乏类似人类的、交错进行视觉感知和文本推理的能力,导致长程推理效果不佳。现有方法通常采用端到端训练,奖励信号稀疏,难以有效训练模型进行长程推理。

核心思路:InterSketch的核心思路是模拟人类的视觉-文本交错推理过程,通过动态生成中间视觉草图来辅助文本推理,从而增强模型对视觉信息的理解和利用。模型通过交错生成视觉草图和文本,形成视觉-文本链式思考(VT-CoT),从而实现更有效的长程推理。此外,模型还引入了自校正机制和逐步奖励机制,以提高推理的准确性和效率。

技术框架:InterSketch包含两个主要阶段:冷启动阶段和强化学习阶段。在冷启动阶段,模型使用合成的高质量交错VT-CoT数据集进行预训练,该数据集包含反思机制,使模型具备多轮交错推理和自校正能力。在强化学习阶段,模型通过逐步奖励机制进行训练,以克服长程推理中奖励信号稀疏的问题。整体框架采用交错的视觉草图生成和文本推理,通过外部工具生成视觉草图,并将其与文本推理交错进行。

关键创新:InterSketch的关键创新在于以下几点:一是提出了交错的视觉-文本链式思考(VT-CoT)推理模式,模拟人类的推理过程;二是引入了自校正机制,使模型能够纠正推理过程中的错误;三是设计了逐步奖励机制,解决了长程推理中奖励信号稀疏的问题。与现有方法相比,InterSketch更加注重视觉信息的利用,并且能够进行更深层次的推理。

关键设计:在冷启动阶段,合成数据集包含高质量的交错VT-CoT数据,并使用反思机制来提高模型的自校正能力。在强化学习阶段,逐步奖励机制根据模型在推理过程中的每一步表现给予奖励,而不是仅仅根据最终结果给予奖励。具体奖励函数的设计需要根据具体的任务进行调整,以鼓励模型生成高质量的视觉草图和进行准确的文本推理。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

InterSketch在多个视觉推理基准测试中取得了显著的性能提升,例如在某个基准测试中,InterSketch的性能超越了Gemini-3-Pro等专有模型。实验结果表明,InterSketch的交错推理模式、自校正机制和逐步奖励机制能够有效提高视觉语言模型的推理能力。

🎯 应用场景

InterSketch可应用于需要复杂视觉推理的场景,例如智能问答、视觉导航、机器人操作等。该模型能够更好地理解和利用视觉信息,从而提高任务的完成度和准确性。未来,InterSketch有望在自动驾驶、医疗诊断等领域发挥重要作用。

📄 摘要(原文)

While vision-language models (VLMs) have exhibited multi-turn visual reasoning capabilities, their reasoning trajectories remain relatively shallow and are dominated by a text-centric paradigm, limiting their applicability to complex visual challenges. In contrast, human-like thought typically involves long-horizon reasoning with an interleaved visual-textual chain-of-thought (VT-CoT). To bridge this gap, we introduce InterSketch, an interleaved reasoning model to enhance the VT-CoT capability via self-correcting and stepwise reward mechanisms. InterSketch dynamically generates intermediate visual sketches using external tools and interleaves them with textual reasoning, enabling effective perception and logical reasoning over long-horizon visual understanding tasks. Specifically, in the first cold-start stage, we propose a synthesized high-quality interleaved VT-CoT dataset and include a reflection mechanism to enable the model's capability in multi-turn interleaved reasoning and self-correction. In the subsequent reinforcement learning (RL) stage, we design a stepwise reward mechanism to mitigate the sparsity of reward signals inherent in end-only supervision over long-horizon reasoning. Extensive experiments on visual reasoning benchmarks demonstrate the effectiveness of InterSketch, even outperforming proprietary models such as Gemini-3-Pro.