SketchVL: Policy Optimization via Fine-Grained Credit Assignment for Chart Understanding and More

📄 arXiv: 2601.05688v1 📥 PDF

作者: Muye Huang, Lingling Zhang, Yifei Li, Yaqiang Wu, Jun Liu

分类: cs.CV

发布日期: 2026-01-09


💡 一句话要点

提出SketchVL,通过细粒度信用分配优化策略,提升图表理解能力。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 图表理解 多模态学习 强化学习 信用分配 视觉推理

📋 核心要点

  1. 现有MLLM在图表理解中面临视觉推理精度和复杂性的挑战,强化学习训练中存在信用分配不明确的问题。
  2. SketchVL通过将中间推理步骤绘制为图像标记,并反馈给模型,构建鲁棒的多步骤推理过程。
  3. FinePO算法利用FinePRM对每个绘图动作进行评分,实现细粒度的信用分配,提升模型性能。

📝 摘要(中文)

图表是复杂数据的高密度视觉载体,也是信息提取和分析的媒介。由于需要精确和复杂的视觉推理,自动图表理解对现有的多模态大型语言模型(MLLM)提出了重大挑战。许多使用强化学习(RL)训练的MLLM面临信用分配的难题。它们的优势估计通常在轨迹级别执行,无法区分单个生成响应中的正确和不正确的推理步骤。为了解决这个限制,我们引入了SketchVL,一种新型MLLM,它通过FinePO进行优化,FinePO是一种新的RL算法,旨在在每个轨迹中进行细粒度的信用分配。SketchVL的方法包括将其中间推理步骤绘制为图像上的标记,并将带注释的图像反馈给自己,从而创建一个鲁棒的多步骤推理过程。在训练期间,FinePO算法利用细粒度过程奖励模型(FinePRM)来对轨迹中的每个绘图动作进行评分,从而精确地为每个步骤分配信用。这种机制使得FinePO能够在轨迹全局成功时更强烈地奖励正确的token,并在轨迹全局次优时更严厉地惩罚不正确的token,从而实现细粒度的强化信号。实验表明,SketchVL学会将其步骤级别的行为与FinePRM对齐,在图表数据集、自然图像数据集和数学方面,平均性能比其基础模型提高了7.23%,为训练强大的推理模型提供了一个有希望的新方向。

🔬 方法详解

问题定义:现有MLLM在图表理解任务中,难以进行精确和复杂的视觉推理。强化学习训练中,传统的轨迹级别信用分配方法无法区分每个推理步骤的贡献,导致模型难以学习到正确的推理策略。现有方法无法有效区分轨迹中正确和错误的步骤,导致训练效率低下。

核心思路:SketchVL的核心思路是通过细粒度的信用分配来优化MLLM的推理过程。具体来说,模型在推理过程中将中间步骤可视化为图像上的标记,并利用这些标记进行下一步推理,从而增强模型的可解释性和推理能力。同时,引入FinePO算法,通过FinePRM对每个推理步骤进行评分,实现细粒度的信用分配。

技术框架:SketchVL的整体框架包含以下几个主要模块:1) MLLM基础模型:用于生成推理步骤。2) 绘图模块:将中间推理步骤绘制为图像上的标记。3) FinePRM:用于评估每个绘图动作的质量,并提供细粒度的奖励信号。4) FinePO算法:利用FinePRM提供的奖励信号,优化MLLM的推理策略。模型首先接收图表图像作为输入,然后MLLM生成推理步骤,绘图模块将这些步骤绘制在图像上,并将带标记的图像反馈给MLLM进行下一步推理,直到完成整个推理过程。FinePRM在训练过程中对每个绘图动作进行评分,FinePO算法利用这些评分来更新MLLM的参数。

关键创新:SketchVL的关键创新在于:1) 引入了细粒度的信用分配机制,通过FinePRM对每个推理步骤进行评分,解决了传统轨迹级别信用分配的不足。2) 将中间推理步骤可视化为图像上的标记,并反馈给模型,增强了模型的可解释性和推理能力。3) 提出了FinePO算法,能够有效地利用FinePRM提供的奖励信号,优化MLLM的推理策略。

关键设计:FinePRM的设计至关重要,它需要能够准确地评估每个绘图动作的质量。具体实现方式未知,但可以推测可能使用了监督学习或自监督学习的方法来训练FinePRM。FinePO算法的具体实现细节也未知,但可以推测可能使用了Actor-Critic框架,并结合了FinePRM提供的奖励信号来更新Actor和Critic网络的参数。损失函数的设计需要考虑如何平衡全局奖励和局部奖励,以实现最佳的训练效果。网络结构方面,可能使用了Transformer架构,并针对图表理解任务进行了优化。

📊 实验亮点

实验结果表明,SketchVL在图表数据集、自然图像数据集和数学问题数据集上均取得了显著的性能提升。在图表数据集上,SketchVL的平均性能比其基础模型提高了7.23%。这表明SketchVL能够有效地学习到正确的推理策略,并提高图表理解的准确性。具体的性能数据和对比基线未知,但整体提升幅度具有统计意义。

🎯 应用场景

SketchVL在自动图表理解、数据分析、信息提取等领域具有广泛的应用前景。它可以帮助人们更高效地理解和分析图表数据,从而做出更明智的决策。此外,该方法还可以应用于其他需要复杂视觉推理的任务,例如自然图像理解、数学问题求解等。未来,SketchVL有望成为一种通用的推理模型训练方法,推动人工智能技术的发展。

📄 摘要(原文)

Charts are high-density visual carriers of complex data and medium for information extraction and analysis. Due to the need for precise and complex visual reasoning, automated chart understanding poses a significant challenge to existing Multimodal Large Language Models (MLLMs). Many MLLMs trained with reinforcement learning (RL) face the challenge of credit assignment. Their advantage estimation, typically performed at the trajectory level, cannot distinguish between correct and incorrect reasoning steps within a single generated response. To address this limitation, we introduce SketchVL, a novel MLLM that optimized with FinePO, a new RL algorithm designed for fine-grained credit assignment within each trajectory. SketchVL's methodology involves drawing its intermediate reasoning steps as markers on the image and feeding the annotated image back to itself, creating a robust, multi-step reasoning process. During training, the FinePO algorithm leverages a Fine-grained Process Reward Model (FinePRM) to score each drawing action within a trajectory, thereby precisely assigning credit for each step. This mechanism allows FinePO to more strongly reward correct tokens when a trajectory is globally successful, and more heavily penalize incorrect tokens when the trajectory is globally suboptimal, thus achieving fine-grained reinforcement signals. Experiments show that SketchVL learns to align its step-level behavior with the FinePRM, achieving an average performance gain of 7.23\% over its base model across chart datasets, natural image datasets, and mathematics, providing a promising new direction for training powerful reasoning models.