Visual Programmability: A Guide for Code-as-Thought in Chart Understanding

📄 arXiv: 2509.09286v1 📥 PDF

作者: Bohao Tang, Yan Ma, Fei Zhang, Jiadi Su, Ethan Chern, Zhulin Hu, Zhixin Wang, Pengfei Liu, Ya Zhang

分类: cs.CV

发布日期: 2025-09-11


💡 一句话要点

提出Visual Programmability,自适应选择代码推理或视觉推理解决图表理解任务

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 图表理解 视觉-语言模型 代码推理 视觉推理 强化学习 自适应推理 Visual Programmability

📋 核心要点

  1. 现有图表理解方法依赖外部工具或单一推理策略,缺乏灵活性和可验证性,限制了模型性能。
  2. 提出Visual Programmability,使模型能够自适应地选择代码推理(CaT)或直接视觉推理,提升处理复杂图表的能力。
  3. 通过强化学习和双重奖励机制训练模型,在多个图表理解基准测试中取得了强大且稳健的性能。

📝 摘要(中文)

图表理解是对视觉-语言模型(VLM)推理能力的关键测试。现有方法存在局限:一些依赖外部工具,受限于预定义工具集;另一些微调特定模型,采用单一推理策略,如基于文本的思维链(CoT)。文本推理的中间步骤难以验证,阻碍了使用强化学习信号奖励事实准确性。为此,我们提出一种代码作为思维(CaT)方法,以可验证的符号格式表示图表的视觉信息。关键在于自适应性:纯代码实现始终无法处理复杂的图表。因此,我们引入Visual Programmability:一种可学习的属性,决定图表-问题对更适合用代码还是直接视觉分析解决。我们在一个自适应框架中实现这一概念,VLM学习在CaT路径和直接视觉推理路径之间选择。模型的选择策略通过强化学习和一种新颖的双重奖励系统进行训练。该系统结合了数据准确性奖励,以确保模型基于事实并防止数值幻觉,以及决策奖励,以指导模型何时使用每种策略,防止其默认使用单一推理模式。实验表明,在各种图表理解基准测试中,性能强大且稳健。我们的工作表明,可以教导VLM不仅进行推理,还包括如何推理,从而动态地为每个任务选择最佳推理路径。

🔬 方法详解

问题定义:现有图表理解方法主要存在两个痛点。一是依赖外部工具,导致系统脆弱且受限于预定义的工具集。二是微调的专家模型通常采用单一的推理策略,例如基于文本的思维链(CoT),缺乏灵活性。此外,基于文本的推理过程难以验证,阻碍了强化学习信号对事实准确性的奖励。

核心思路:论文的核心思路是让视觉-语言模型(VLM)具备“Visual Programmability”,即根据图表和问题的特点,自适应地选择最合适的推理路径:代码推理(CaT)或直接视觉推理。这种自适应性避免了单一推理策略的局限性,提高了模型处理复杂图表的能力。

技术框架:整体框架包含两个主要路径:代码推理(CaT)路径和直接视觉推理路径。VLM首先判断当前图表-问题对更适合哪种路径。如果是代码推理路径,则将图表信息转换为可验证的符号格式,然后进行代码推理。如果是直接视觉推理路径,则直接利用视觉信息进行推理。模型的选择策略通过强化学习进行训练,使用双重奖励系统。

关键创新:最重要的创新点在于“Visual Programmability”的概念,即让模型具备根据输入自适应选择推理路径的能力。与现有方法中固定使用一种推理策略不同,该方法能够根据图表的复杂度和问题的类型,动态地选择最合适的推理方式,从而提高模型的泛化能力和准确性。

关键设计:双重奖励系统是关键设计之一。数据准确性奖励用于确保模型基于事实,防止数值幻觉。决策奖励用于指导模型何时使用每种策略,防止其默认使用单一推理模式。具体实现细节包括强化学习算法的选择(未知,论文中未明确说明)以及奖励函数的具体形式(未知,论文中未明确说明)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在多个图表理解基准测试中取得了强大的性能。通过引入Visual Programmability和双重奖励机制,模型能够自适应地选择最佳推理路径,有效提高了图表理解的准确性和鲁棒性。具体的性能数据和提升幅度在摘要中未给出,需要查阅论文正文。

🎯 应用场景

该研究成果可应用于智能报表分析、数据可视化辅助工具、教育领域等。例如,可以帮助用户自动理解和分析各种图表,提取关键信息,并生成相应的报告。在教育领域,可以辅助学生理解图表,提高数据分析能力。未来,该技术有望扩展到更广泛的视觉信息理解领域。

📄 摘要(原文)

Chart understanding presents a critical test to the reasoning capabilities of Vision-Language Models (VLMs). Prior approaches face critical limitations: some rely on external tools, making them brittle and constrained by a predefined toolkit, while others fine-tune specialist models that often adopt a single reasoning strategy, such as text-based chain-of-thought (CoT). The intermediate steps of text-based reasoning are difficult to verify, which complicates the use of reinforcement-learning signals that reward factual accuracy. To address this, we propose a Code-as-Thought (CaT) approach to represent the visual information of a chart in a verifiable, symbolic format. Our key insight is that this strategy must be adaptive: a fixed, code-only implementation consistently fails on complex charts where symbolic representation is unsuitable. This finding leads us to introduce Visual Programmability: a learnable property that determines if a chart-question pair is better solved with code or direct visual analysis. We implement this concept in an adaptive framework where a VLM learns to choose between the CaT pathway and a direct visual reasoning pathway. The selection policy of the model is trained with reinforcement learning using a novel dual-reward system. This system combines a data-accuracy reward to ground the model in facts and prevent numerical hallucination, with a decision reward that teaches the model when to use each strategy, preventing it from defaulting to a single reasoning mode. Experiments demonstrate strong and robust performance across diverse chart-understanding benchmarks. Our work shows that VLMs can be taught not only to reason but also how to reason, dynamically selecting the optimal reasoning pathway for each task.