Chart-RVR: Reinforcement Learning with Verifiable Rewards for Explainable Chart Reasoning
作者: Sanchit Sinha, Oana Frunza, Kashif Rasul, Yuriy Nevmyvaka, Aidong Zhang
分类: cs.CV, cs.LG
发布日期: 2025-10-13
备注: 23 pages
💡 一句话要点
提出Chart-RVR框架,通过可验证奖励强化学习提升LVLM在图表推理中的鲁棒性和可解释性
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 图表推理 视觉语言模型 强化学习 可解释性 分布外泛化 思维链 群体相对策略优化
📋 核心要点
- 现有LVLM在图表推理中存在OOD泛化能力不足,且CoT推理可解释性差的问题。
- Chart-RVR框架结合GRPO和可验证奖励,微调LVLM以提升图表推理的鲁棒性和可解释性。
- 实验表明Chart-RVR在多个图表推理基准上超越SFT,并在OOD数据上缩小了性能差距。
📝 摘要(中文)
大型视觉语言模型(LVLMs)在许多视觉推理任务(包括图表推理)中达到了最先进的水平,但它们在分布外(OOD)数据上仍然表现不佳,并且在被要求生成思维链(CoT)推理时性能进一步下降,限制了解释性。我们提出了Chart-RVR,一个通用框架,通过将群体相对策略优化(GRPO)与自动可验证奖励相结合,对LVLM进行微调,使其在图表推理中更具鲁棒性和可解释性。我们的框架包含三个奖励,以最大化:(i)正确的图表类型分类,(ii)忠实的图表表格重建,以及(iii)过程一致性。应用于30亿参数的LVLM,Chart-RVR在同分布和分布外数据集上始终优于标准监督微调(SFT),缩小了OOD性能差距,同时提高了推理的保真度。由此产生的模型Chart-RVR-3B系列在涵盖同域和OOD设置的六个图表推理基准测试中取得了最先进的结果,超过了所有现有同等规模的模型。除了准确性之外,Chart-RVR还产生了更易于解释的CoT推理,增强了信任和可靠性——展示了可验证奖励与GRPO相结合在训练可靠、可解释的图表推理模型方面的强大功能。
🔬 方法详解
问题定义:论文旨在解决大型视觉语言模型(LVLM)在图表推理任务中,尤其是在分布外(OOD)数据上的泛化能力不足,以及生成思维链(CoT)推理时可解释性较差的问题。现有方法,如监督微调(SFT),在OOD数据上表现不佳,并且难以保证CoT推理的忠实性。
核心思路:论文的核心思路是利用强化学习,通过设计可验证的奖励函数,引导LVLM学习更鲁棒和可解释的图表推理策略。具体而言,通过群体相对策略优化(GRPO)算法,结合图表类型分类、图表表格重建和过程一致性三个奖励,对LVLM进行微调,使其能够生成更准确、更忠实的CoT推理。
技术框架:Chart-RVR框架主要包含以下几个模块:1) LVLM:作为基础模型,负责接收图表图像和问题,并生成CoT推理和答案。2) GRPO:作为强化学习算法,负责根据奖励信号更新LVLM的策略。3) 可验证奖励:包含三个部分:图表类型分类奖励、图表表格重建奖励和过程一致性奖励,用于评估LVLM生成的CoT推理的质量。整个流程是,LVLM根据当前策略生成CoT推理,然后可验证奖励模块评估CoT推理的质量,并将奖励信号反馈给GRPO,GRPO根据奖励信号更新LVLM的策略。
关键创新:论文的关键创新在于提出了可验证奖励的概念,并将其与GRPO相结合,用于训练LVLM进行图表推理。与传统的监督学习方法相比,可验证奖励能够更有效地引导LVLM学习更鲁棒和可解释的推理策略。此外,论文还提出了三个具体的奖励函数,分别用于评估图表类型分类的准确性、图表表格重建的忠实性和过程的一致性。
关键设计:在奖励函数设计方面,图表类型分类奖励采用交叉熵损失函数,图表表格重建奖励采用编辑距离,过程一致性奖励则通过人工设计的规则进行评估。在GRPO算法方面,论文采用了标准的实现方式。在LVLM方面,论文使用了30亿参数的模型,并对其进行了微调。
🖼️ 关键图片
📊 实验亮点
Chart-RVR在六个图表推理基准测试中取得了最先进的结果,超越了所有现有同等规模的模型。在OOD数据集上,Chart-RVR显著缩小了与同分布数据的性能差距,表明其具有更强的泛化能力。此外,Chart-RVR生成的CoT推理更易于解释,提高了模型的可信度。
🎯 应用场景
Chart-RVR框架可应用于金融分析、商业智能、科学研究等领域,帮助用户理解和分析各种图表数据,辅助决策。该研究的实际价值在于提升了图表推理系统的可靠性和可解释性,增强了用户对AI系统的信任。未来,该框架可以扩展到其他视觉推理任务,并与其他技术(如知识图谱)相结合,进一步提升AI系统的智能水平。
📄 摘要(原文)
The capabilities of Large Vision-Language Models (LVLMs) have reached state-of-the-art on many visual reasoning tasks, including chart reasoning, yet they still falter on out-of-distribution (OOD) data, and degrade further when asked to produce their chain-of-thought (CoT) rationales, limiting explainability. We present Chart-RVR, a general framework that fine-tunes LVLMs to be more robust and explainable for chart reasoning by coupling Group Relative Policy Optimization (GRPO) with automatically verifiable rewards. Our framework comprises of three rewards that maximize: (i) correct chart-type classification, (ii) faithful chart table reconstruction, and (iii) process conformity. Applied to 3-billion-parameter LVLMs, Chart-RVR consistently outperforms standard supervised fine-tuning (SFT) on both in-distribution and out-of-distribution datasets, closing the OOD performance gap while improving rationale fidelity. The resulting models, the Chart-RVR-3B series, achieve state-of-the-art results on six chart-reasoning benchmarks spanning in-domain and OOD settings, surpassing all existing models of comparable size. Beyond accuracy, Chart-RVR yields more interpretable CoT rationales, strengthening trust and reliability - showcasing the power of verifiable rewards with GRPO for training reliable, interpretable chart-reasoning models.