Chart-RL: Policy Optimization Reinforcement Learning for Enhanced Visual Reasoning in Chart Question Answering with Vision Language Models

📄 arXiv: 2604.03157 📥 PDF

作者: Yunfei Bai, Amit Dhanda, Shekhar Jain

分类: cs.AI

发布日期: 2026-04-06


💡 一句话要点

提出Chart-RL,通过强化学习优化视觉语言模型在图表问答中的推理能力

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱七:动作重定向 (Motion Retargeting) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 图表问答 视觉语言模型 强化学习 策略优化 低秩自适应

📋 核心要点

  1. 现有视觉语言模型在图表问答任务中,存在数值提取不精确、视觉关系理解困难和空间关系建模不足等问题。
  2. 论文提出Chart-RL框架,利用强化学习对视觉感知和逻辑推理进行策略优化,提升模型对图表的理解能力。
  3. 实验结果表明,Chart-RL框架在ChartQAPro数据集上表现出色,在参数量减半的情况下,精度超越了更大的模型,并显著降低了推理延迟。

📝 摘要(中文)

视觉语言模型(VLM)的最新进展展示了其在需要强大推理能力的真正智能方面的进步。除了模式识别之外,语言推理必须与视觉理解相结合,特别是对于涉及复杂数据可视化的图表问答(CQA)任务。目前的VLM在CQA方面面临重大限制,包括不精确的数值提取、难以解释隐含的视觉关系以及用于捕获图表中空间关系的不充分的注意力机制。在这项工作中,我们通过提出Chart-RL来解决这些挑战,Chart-RL是一种新颖的强化学习框架,通过视觉感知和逻辑推理的反馈驱动策略优化来增强VLM的图表理解能力。我们的关键创新包括一个综合框架,该框架集成了来自策略优化技术的强化学习(RL)以及自适应奖励函数,与基线基础模型相比,该框架表现出卓越的性能,并且与更大的最先进架构相比具有竞争力的结果。我们还在RL框架中通过低秩自适应(LoRA)集成了参数高效的微调,该框架仅需要单个GPU配置,同时保持了性能的完整性。我们利用ChartQAPro数据集对开源、专有和最先进的闭源模型进行了广泛的基准测试。经过RL微调的Qwen3-VL-4B-Instruct模型实现了0.634的答案准确率,超过了Qwen3-VL-8B-Instruct基础模型的0.580准确率,尽管只使用了后者一半的参数量,同时将推理延迟从31秒降低到9秒。

🔬 方法详解

问题定义:论文旨在解决视觉语言模型在图表问答(CQA)任务中存在的局限性。现有方法难以精确提取图表中的数值信息,无法有效理解图表中隐含的视觉关系,并且缺乏对空间关系的有效建模,导致CQA性能不佳。

核心思路:论文的核心思路是利用强化学习(RL)框架,通过策略优化来提升视觉语言模型对图表的理解能力。通过设计合适的奖励函数,引导模型学习更有效的视觉感知和逻辑推理策略,从而提高CQA的准确率。

技术框架:Chart-RL框架主要包含以下几个模块:1) 视觉语言模型(VLM):作为基础模型,负责图表和问题的编码。2) 强化学习代理(RL Agent):负责根据当前状态选择动作,例如调整注意力权重或执行特定的推理步骤。3) 奖励函数:根据模型的回答质量和推理过程,为RL Agent提供反馈信号。4) 策略优化算法:利用策略梯度方法,更新RL Agent的策略,使其能够更好地完成CQA任务。

关键创新:论文的关键创新在于将强化学习引入到图表问答任务中,通过策略优化来提升视觉语言模型的推理能力。与传统的监督学习方法不同,Chart-RL能够根据模型的实际表现进行自适应调整,从而更好地适应复杂的图表结构和问题类型。此外,论文还采用了参数高效的微调方法LoRA,降低了训练成本。

关键设计:论文设计了自适应奖励函数,综合考虑了回答的准确性和推理过程的合理性。例如,对于数值提取任务,奖励函数会根据提取数值与真实值的接近程度进行奖励。对于需要多步推理的任务,奖励函数会根据每一步推理的正确性进行奖励。此外,论文还采用了策略梯度算法来优化RL Agent的策略,并使用LoRA进行参数高效的微调。

📊 实验亮点

实验结果表明,经过Chart-RL微调的Qwen3-VL-4B-Instruct模型在ChartQAPro数据集上取得了显著的性能提升,答案准确率达到0.634,超过了参数量更大的Qwen3-VL-8B-Instruct基础模型(0.580)。同时,推理延迟也从31秒降低到9秒,表明该方法在提高准确率的同时,也提高了推理效率。

🎯 应用场景

该研究成果可应用于金融分析、商业智能、教育等领域,帮助用户更好地理解和利用图表数据。例如,在金融分析中,可以利用该技术自动提取财务报表中的关键数据,并回答相关问题。在教育领域,可以帮助学生更好地理解图表,提高数据分析能力。未来,该技术有望应用于更广泛的领域,例如医疗健康、智能制造等。

📄 摘要(原文)

The recent advancements in Vision Language Models (VLMs) have demonstrated progress toward true intelligence requiring robust reasoning capabilities. Beyond pattern recognition, linguistic reasoning must integrate with visual comprehension, particularly for Chart Question Answering (CQA) tasks involving complex data visualizations. Current VLMs face significant limitations in CQA, including imprecise numerical extraction, difficulty interpreting implicit visual relationships, and inadequate attention mechanisms for capturing spatial relationships in charts. In this work, we address these challenges by presenting Chart-RL, a novel reinforcement learning framework that enhances VLMs chart understanding through feedback-driven policy optimization of visual perception and logical inference. Our key innovation includes a comprehensive framework integrating Reinforcement Learning (RL) from Policy Optimization techniques along with adaptive reward functions, that demonstrates superior performance compared to baseline foundation models and competitive results against larger state-of-the-art architectures. We also integrated Parameter-Efficient Fine-Tuning through Low-Rank Adaptation (LoRA) in the RL framework that only requires single GPU configurations while preserving performance integrity. We conducted extensive benchmarking across open-source, proprietary, and state-of-the-art closed-source models utilizing the ChartQAPro dataset. The RL fine-tuned Qwen3-VL-4B-Instruct model achieved an answer accuracy of 0.634, surpassing the 0.580 accuracy of the Qwen3-VL-8B-Instruct foundation model despite utilizing half the parameter count, while simultaneously reducing inference latency from 31 seconds to 9 seconds.