SketchThinker-R1: Towards Efficient Sketch-Style Reasoning in Large Multimodal Models

📄 arXiv: 2601.02825v1 📥 PDF

作者: Ruiyang Zhang, Dongzhan Zhou, Zhedong Zheng

分类: cs.CV

发布日期: 2026-01-06

备注: 28 pages, 11 figures


💡 一句话要点

提出SketchThinker-R1,提升大模型草图式推理能力并降低计算成本。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态模型 草图式推理 推理效率 强化学习 奖励模型

📋 核心要点

  1. 传统大模型推理过程冗长,计算开销大,影响推理效率。
  2. SketchThinker-R1模仿人类草图式推理,关注关键信息,提升推理效率。
  3. 实验表明,SketchThinker-R1在保证准确率的同时,显著降低了推理token成本。

📝 摘要(中文)

本文提出SketchThinker-R1,旨在提升大型多模态模型中的草图式推理能力,从而提高推理效率。与传统的逐步推理方法相比,草图式推理更简洁、目标导向,并优先考虑关键信息。SketchThinker-R1包含三个阶段:首先,在草图模式冷启动阶段,将标准的长推理过程转化为草图式推理,并微调基础多模态模型,赋予其初步的草图式推理能力。其次,训练SketchJudge奖励模型,显式评估模型的思维过程,并为草图式推理赋予更高的分数。最后,在SketchJudge的监督下进行草图式思维强化学习,进一步泛化草图式推理能力。在四个基准数据集上的实验结果表明,SketchThinker-R1在不影响最终答案准确性的前提下,推理token成本降低超过64%。定性分析表明,草图式推理更关注问题解决过程中的关键线索。

🔬 方法详解

问题定义:现有的大型多模态模型在推理时,通常采用逐步推理的方式,这导致了较长的推理过程和较高的计算成本,包括更多的token消耗和更长的响应时间。这种低效的推理方式限制了模型在实际应用中的部署和使用。因此,需要一种更高效的推理方法,能够在保证准确率的前提下,显著降低计算成本。

核心思路:本文的核心思路是模仿人类的草图式推理方式。人类在解决问题时,往往会抓住问题的关键信息,忽略不重要的细节,从而快速找到解决方案。SketchThinker-R1旨在让大型多模态模型也具备这种能力,通过关注关键线索,减少不必要的推理步骤,从而提高推理效率。

技术框架:SketchThinker-R1包含三个主要阶段: 1. Sketch-Mode Cold Start(草图模式冷启动):将标准的、冗长的推理过程转化为草图式的推理过程,并使用这些数据对基础多模态模型进行微调,使其初步具备草图式推理的能力。 2. SketchJudge Reward Model Training(SketchJudge奖励模型训练):训练一个奖励模型,用于评估模型的推理过程,并对草图式的推理过程给予更高的奖励。 3. Sketch-Thinking Reinforcement Learning(草图式思维强化学习):使用强化学习算法,在SketchJudge奖励模型的指导下,进一步训练模型,使其能够更好地进行草图式推理。

关键创新:该方法最重要的创新点在于引入了草图式推理的概念,并将其应用于大型多模态模型中。与传统的逐步推理方法相比,草图式推理更加简洁、高效,能够显著降低计算成本。此外,SketchJudge奖励模型的引入,使得模型能够学习到什么是好的草图式推理,从而更好地进行自我优化。

关键设计:关于关键设计,论文中未提供非常详细的参数设置、损失函数或网络结构等技术细节。但可以推断,SketchJudge奖励模型可能采用了某种形式的序列建模(如Transformer)来评估推理过程,并使用对比学习或排序损失来区分草图式推理和非草图式推理。强化学习阶段可能使用了策略梯度方法,并以SketchJudge的输出作为奖励信号。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,SketchThinker-R1在四个基准数据集上实现了显著的性能提升。在不影响最终答案准确性的前提下,推理token成本降低超过64%。这表明该方法能够有效地提高推理效率,并降低计算成本。定性分析还表明,SketchThinker-R1能够更好地关注问题解决过程中的关键线索,从而更加高效地找到解决方案。

🎯 应用场景

SketchThinker-R1具有广泛的应用前景,可以应用于需要快速响应和低计算成本的场景,例如移动设备上的视觉问答、实时图像理解和机器人导航等。通过降低推理成本,该方法可以使大型多模态模型更容易部署在资源受限的设备上,从而扩展其应用范围。未来,该方法还可以与其他模型压缩和加速技术相结合,进一步提高推理效率。

📄 摘要(原文)

Despite the empirical success of extensive, step-by-step reasoning in large multimodal models, long reasoning processes inevitably incur substantial computational overhead, i.e., in terms of higher token costs and increased response time, which undermines inference efficiency. In contrast, humans often employ sketch-style reasoning: a concise, goal-directed cognitive process that prioritizes salient information and enables efficient problem-solving. Inspired by this cognitive efficiency, we propose SketchThinker-R1, which incentivizes sketch-style reasoning ability in large multimodal models. Our method consists of three primary stages. In the Sketch-Mode Cold Start stage, we convert standard long reasoning process into sketch-style reasoning and finetune base multimodal model, instilling initial sketch-style reasoning capability. Next, we train SketchJudge Reward Model, which explicitly evaluates thinking process of model and assigns higher scores to sketch-style reasoning. Finally, we conduct Sketch-Thinking Reinforcement Learning under supervision of SketchJudge to further generalize sketch-style reasoning ability. Experimental evaluation on four benchmarks reveals that our SketchThinker-R1 achieves over 64% reduction in reasoning token cost without compromising final answer accuracy. Qualitative analysis further shows that sketch-style reasoning focuses more on key cues during problem solving.