ChartVerse: Scaling Chart Reasoning via Reliable Programmatic Synthesis from Scratch
作者: Zheng Liu, Honglin Lin, Chonghan Qin, Xiaoyang Wang, Xin Gao, Yu Li, Mengzhang Cai, Yun Zhu, Zhanping Zhong, Qizhi Pei, Zhuoshi Pan, Xiaoran Shang, Bin Cui, Conghui He, Wentao Zhang, Lijun Wu
分类: cs.CV
发布日期: 2026-01-20
备注: 29 pages
💡 一句话要点
ChartVerse:通过可靠的程序化从零合成,扩展图表推理能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 图表推理 视觉语言模型 数据合成 程序化生成 逆向问答 复杂性度量 思维链 知识蒸馏
📋 核心要点
- 现有图表推理数据集存在图表简单重复、问答对易产生幻觉且缺乏推理深度的问题。
- ChartVerse框架通过引入RPE指标指导图表生成,并采用答案优先的逆向问答合成,保证数据质量。
- 实验表明,ChartVerse-8B模型性能超越教师模型,并与更强大的Qwen3-VL-32B-Thinking模型竞争。
📝 摘要(中文)
图表推理是视觉语言模型(VLMs)的关键能力。然而,开源模型的发展受到高质量训练数据匮乏的严重阻碍。现有数据集面临双重挑战:合成图表通常过于简单和重复,而相关的问答对容易产生幻觉,并且缺乏复杂任务所需的推理深度。为了弥合这一差距,我们提出了ChartVerse,一个可扩展的框架,旨在从零开始合成复杂的图表和可靠的推理数据。(1) 为了解决简单模式的瓶颈,我们首先引入了Rollout Posterior Entropy (RPE),这是一种量化图表复杂性的新指标。在RPE的指导下,我们开发了复杂性感知图表编码器,通过可执行程序自主合成多样化、高复杂度的图表。(2) 为了保证推理的严谨性,我们开发了以真值为锚的逆向问答合成。与标准生成不同,我们采用了一种答案优先的范式:我们直接从源代码中提取确定性答案,生成以这些锚点为条件的提问,并强制执行严格的一致性验证。为了进一步提高难度和推理深度,我们基于模型失败率过滤样本,并提炼高质量的思维链(CoT)推理。我们使用Qwen3-VL-30B-A3B-Thinking作为教师模型,整理了ChartVerse-SFT-600K和ChartVerse-RL-40K。实验结果表明,ChartVerse-8B实现了最先进的性能,显著超越了其教师模型,并与更强大的Qwen3-VL-32B-Thinking相媲美。
🔬 方法详解
问题定义:现有图表推理数据集的质量不高,合成图表过于简单,缺乏多样性和复杂性,难以训练出具有强大推理能力的视觉语言模型。同时,现有数据集中的问答对容易出现幻觉,并且推理深度不足,无法满足复杂图表推理任务的需求。
核心思路:ChartVerse的核心思路是从零开始合成高质量的图表和问答数据。通过引入Rollout Posterior Entropy (RPE) 指标来量化图表的复杂性,并指导图表生成过程,从而生成多样化、高复杂度的图表。同时,采用答案优先的逆向问答合成方法,确保问答对的准确性和一致性,并提高推理深度。
技术框架:ChartVerse框架主要包含两个模块:复杂性感知图表编码器和以真值为锚的逆向问答合成。复杂性感知图表编码器利用RPE指标指导图表生成,生成多样化、高复杂度的图表。以真值为锚的逆向问答合成首先从源代码中提取确定性答案,然后生成以这些答案为条件的提问,并进行一致性验证。此外,还包括基于模型失败率的样本过滤和高质量思维链(CoT)推理的提炼。
关键创新:ChartVerse的关键创新在于:1) 引入了Rollout Posterior Entropy (RPE) 指标来量化图表的复杂性,并指导图表生成;2) 提出了以真值为锚的逆向问答合成方法,确保问答对的准确性和一致性。与现有方法相比,ChartVerse能够生成更高质量、更复杂、更可靠的图表推理数据。
关键设计:RPE指标的计算方式未知,但其目标是量化图表的复杂性。复杂性感知图表编码器的具体实现方式未知,但其目标是根据RPE指标生成多样化、高复杂度的图表。以真值为锚的逆向问答合成的关键在于从源代码中提取确定性答案,并生成以这些答案为条件的提问。一致性验证的具体方法未知,但其目标是确保问答对的准确性和一致性。样本过滤基于模型失败率,选择模型容易出错的样本,以提高数据集的难度。思维链(CoT)推理的提炼使用Qwen3-VL-30B-A3B-Thinking作为教师模型。
🖼️ 关键图片
📊 实验亮点
ChartVerse-8B模型在图表推理任务上取得了最先进的性能,显著超越了其教师模型Qwen3-VL-30B-A3B-Thinking,并与更强大的Qwen3-VL-32B-Thinking模型相媲美。这表明ChartVerse框架能够有效地生成高质量的图表推理数据,并提升视觉语言模型的图表推理能力。
🎯 应用场景
ChartVerse的研究成果可以应用于训练更强大的视觉语言模型,使其能够更好地理解和推理图表数据。这在商业分析、科学研究、教育等领域具有广泛的应用前景,例如,可以帮助人们更好地理解财务报表、科研数据和教学材料。
📄 摘要(原文)
Chart reasoning is a critical capability for Vision Language Models (VLMs). However, the development of open-source models is severely hindered by the lack of high-quality training data. Existing datasets suffer from a dual challenge: synthetic charts are often simplistic and repetitive, while the associated QA pairs are prone to hallucinations and lack the reasoning depth required for complex tasks. To bridge this gap, we propose ChartVerse, a scalable framework designed to synthesize complex charts and reliable reasoning data from scratch. (1) To address the bottleneck of simple patterns, we first introduce Rollout Posterior Entropy (RPE), a novel metric that quantifies chart complexity. Guided by RPE, we develop complexity-aware chart coder to autonomously synthesize diverse, high-complexity charts via executable programs. (2) To guarantee reasoning rigor, we develop truth-anchored inverse QA synthesis. Diverging from standard generation, we adopt an answer-first paradigm: we extract deterministic answers directly from the source code, generate questions conditional on these anchors, and enforce strict consistency verification. To further elevate difficulty and reasoning depth, we filter samples based on model fail-rate and distill high-quality Chain-of-Thought (CoT) reasoning. We curate ChartVerse-SFT-600K and ChartVerse-RL-40K using Qwen3-VL-30B-A3B-Thinking as the teacher. Experimental results demonstrate that ChartVerse-8B achieves state-of-the-art performance, notably surpassing its teacher and rivaling the stronger Qwen3-VL-32B-Thinking.