Chart-RVR: Reinforcement Learning with Verifiable Rewards for Explainable Chart Reasoning

作者: Sanchit Sinha, Oana Frunza, Kashif Rasul, Yuriy Nevmyvaka, Aidong Zhang

分类: cs.CV, cs.LG

发布日期: 2025-10-13

备注: 23 pages

💡 一句话要点

提出Chart-RVR框架，通过可验证奖励强化学习提升LVLM在图表推理中的鲁棒性和可解释性

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 图表推理 视觉语言模型 强化学习 可解释性 分布外泛化 思维链 群体相对策略优化

📋 核心要点

现有LVLM在图表推理中存在OOD泛化能力不足，且CoT推理可解释性差的问题。
Chart-RVR框架结合GRPO和可验证奖励，微调LVLM以提升图表推理的鲁棒性和可解释性。
实验表明Chart-RVR在多个图表推理基准上超越SFT，并在OOD数据上缩小了性能差距。

📝 摘要（中文）

大型视觉语言模型(LVLMs)在许多视觉推理任务（包括图表推理）中达到了最先进的水平，但它们在分布外(OOD)数据上仍然表现不佳，并且在被要求生成思维链(CoT)推理时性能进一步下降，限制了解释性。我们提出了Chart-RVR，一个通用框架，通过将群体相对策略优化(GRPO)与自动可验证奖励相结合，对LVLM进行微调，使其在图表推理中更具鲁棒性和可解释性。我们的框架包含三个奖励，以最大化：(i)正确的图表类型分类，(ii)忠实的图表表格重建，以及(iii)过程一致性。应用于30亿参数的LVLM，Chart-RVR在同分布和分布外数据集上始终优于标准监督微调(SFT)，缩小了OOD性能差距，同时提高了推理的保真度。由此产生的模型Chart-RVR-3B系列在涵盖同域和OOD设置的六个图表推理基准测试中取得了最先进的结果，超过了所有现有同等规模的模型。除了准确性之外，Chart-RVR还产生了更易于解释的CoT推理，增强了信任和可靠性——展示了可验证奖励与GRPO相结合在训练可靠、可解释的图表推理模型方面的强大功能。

🔬 方法详解

问题定义：论文旨在解决大型视觉语言模型（LVLM）在图表推理任务中，尤其是在分布外（OOD）数据上的泛化能力不足，以及生成思维链（CoT）推理时可解释性较差的问题。现有方法，如监督微调（SFT），在OOD数据上表现不佳，并且难以保证CoT推理的忠实性。

核心思路：论文的核心思路是利用强化学习，通过设计可验证的奖励函数，引导LVLM学习更鲁棒和可解释的图表推理策略。具体而言，通过群体相对策略优化（GRPO）算法，结合图表类型分类、图表表格重建和过程一致性三个奖励，对LVLM进行微调，使其能够生成更准确、更忠实的CoT推理。

技术框架：Chart-RVR框架主要包含以下几个模块：1) LVLM：作为基础模型，负责接收图表图像和问题，并生成CoT推理和答案。2) GRPO：作为强化学习算法，负责根据奖励信号更新LVLM的策略。3) 可验证奖励：包含三个部分：图表类型分类奖励、图表表格重建奖励和过程一致性奖励，用于评估LVLM生成的CoT推理的质量。整个流程是，LVLM根据当前策略生成CoT推理，然后可验证奖励模块评估CoT推理的质量，并将奖励信号反馈给GRPO，GRPO根据奖励信号更新LVLM的策略。

关键创新：论文的关键创新在于提出了可验证奖励的概念，并将其与GRPO相结合，用于训练LVLM进行图表推理。与传统的监督学习方法相比，可验证奖励能够更有效地引导LVLM学习更鲁棒和可解释的推理策略。此外，论文还提出了三个具体的奖励函数，分别用于评估图表类型分类的准确性、图表表格重建的忠实性和过程的一致性。

关键设计：在奖励函数设计方面，图表类型分类奖励采用交叉熵损失函数，图表表格重建奖励采用编辑距离，过程一致性奖励则通过人工设计的规则进行评估。在GRPO算法方面，论文采用了标准的实现方式。在LVLM方面，论文使用了30亿参数的模型，并对其进行了微调。

🖼️ 关键图片

📊 实验亮点

Chart-RVR在六个图表推理基准测试中取得了最先进的结果，超越了所有现有同等规模的模型。在OOD数据集上，Chart-RVR显著缩小了与同分布数据的性能差距，表明其具有更强的泛化能力。此外，Chart-RVR生成的CoT推理更易于解释，提高了模型的可信度。

🎯 应用场景

Chart-RVR框架可应用于金融分析、商业智能、科学研究等领域，帮助用户理解和分析各种图表数据，辅助决策。该研究的实际价值在于提升了图表推理系统的可靠性和可解释性，增强了用户对AI系统的信任。未来，该框架可以扩展到其他视觉推理任务，并与其他技术（如知识图谱）相结合，进一步提升AI系统的智能水平。

📄 摘要（原文）

The capabilities of Large Vision-Language Models (LVLMs) have reached state-of-the-art on many visual reasoning tasks, including chart reasoning, yet they still falter on out-of-distribution (OOD) data, and degrade further when asked to produce their chain-of-thought (CoT) rationales, limiting explainability. We present Chart-RVR, a general framework that fine-tunes LVLMs to be more robust and explainable for chart reasoning by coupling Group Relative Policy Optimization (GRPO) with automatically verifiable rewards. Our framework comprises of three rewards that maximize: (i) correct chart-type classification, (ii) faithful chart table reconstruction, and (iii) process conformity. Applied to 3-billion-parameter LVLMs, Chart-RVR consistently outperforms standard supervised fine-tuning (SFT) on both in-distribution and out-of-distribution datasets, closing the OOD performance gap while improving rationale fidelity. The resulting models, the Chart-RVR-3B series, achieve state-of-the-art results on six chart-reasoning benchmarks spanning in-domain and OOD settings, surpassing all existing models of comparable size. Beyond accuracy, Chart-RVR yields more interpretable CoT rationales, strengthening trust and reliability - showcasing the power of verifiable rewards with GRPO for training reliable, interpretable chart-reasoning models.

Chart-RVR: Reinforcement Learning with Verifiable Rewards for Explainable Chart Reasoning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理