CharTide: Data-Centric Chart-to-Code Generation via Tri-Perspective Tuning and Inquiry-Driven Evolution
作者: Xiangxi Zheng, Kuang He, Jiayi Hu, Ping Yu, Rui Yan, Yuan Yao, Peng Hou, Anxiang Zeng, Alex Jinpeng Wang
分类: cs.CV
发布日期: 2026-04-24
💡 一句话要点
CharTide:通过三视角调优和查询驱动演化实现数据为中心的图表到代码生成
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 图表到代码生成 视觉语言模型 数据中心 三视角调优 查询驱动强化学习 数据验证 多模态学习
📋 核心要点
- 现有图表到代码生成方法受限于数据,简单扩展图表-代码对会混淆视觉感知和程序逻辑。
- CharTide通过三视角调优解耦训练,分别处理视觉感知、代码逻辑和模态融合,提升模型性能。
- CharTide采用查询驱动强化学习,将对齐视为数据验证,通过Inspector客观验证生成图表。
📝 摘要(中文)
图表到代码的生成任务对视觉语言模型(VLMs)提出了严格的视觉精确性和语法正确性要求。然而,现有方法受到数据中心限制的根本约束:尽管图表到代码数据集不断增长,但简单地扩展同质的图表-代码对会将视觉感知与程序逻辑混淆,从而阻止模型充分利用多模态监督的丰富性。我们提出了CharTide,一种新颖的数据中心框架,系统地重新设计了图表到代码生成的训练和对齐数据。首先,我们通过三视角调优策略构建了一个包含200万个样本的数据集,明确地将训练分解为视觉感知、纯文本代码逻辑和模态融合流,使7B模型仅使用监督数据就能超越专门的基线。其次,我们将对齐重新定义为数据验证问题,而不是启发式评分任务。为此,我们引入了一个基于信息不变性原则的查询驱动强化学习框架:下游模型应该对原始图表和生成的图表中的相同视觉查询产生一致的答案。我们超越了僵化的规则匹配或VLM评分,采用冻结的Inspector通过原子QA任务客观地验证生成的图表,提供基于答案准确性的可验证奖励信号。在ChartMimic、Plot2Code和ChartX上的实验表明,CharTide-7B/8B显著优于开源基线,超过GPT-4o,并且与GPT-5具有竞争力。
🔬 方法详解
问题定义:图表到代码生成任务旨在根据给定的图表图像生成相应的代码,使其能够复现该图表。现有方法的痛点在于,它们通常依赖于大规模的图表-代码对数据集进行训练,但这些数据集往往是同质的,缺乏对视觉感知和程序逻辑的明确区分,导致模型难以充分利用多模态监督信息,并且容易受到数据偏差的影响。此外,如何有效地对齐生成图表和原始图表,确保它们在语义上的一致性,也是一个挑战。
核心思路:CharTide的核心思路是采用数据为中心的方法,系统地重新设计训练和对齐数据,从而提高模型的性能。具体来说,它通过三视角调优策略来解耦视觉感知、纯文本代码逻辑和模态融合,使得模型能够更好地学习图表的视觉特征、代码的语法结构以及两者之间的对应关系。同时,它将对齐问题重新定义为数据验证问题,通过查询驱动的强化学习框架来确保生成图表和原始图表在语义上的一致性。
技术框架:CharTide的整体框架包含两个主要部分:三视角调优和查询驱动强化学习。三视角调优用于构建高质量的训练数据集,它将训练过程分解为三个独立的流:视觉感知流、纯文本代码逻辑流和模态融合流。查询驱动强化学习用于对齐生成图表和原始图表,它通过一个冻结的Inspector来验证生成图表,并根据答案的准确性提供奖励信号。整个框架采用端到端的方式进行训练,使得模型能够同时学习图表的视觉特征、代码的语法结构以及两者之间的对应关系。
关键创新:CharTide最重要的技术创新点在于它采用了一种数据为中心的方法,系统地重新设计了训练和对齐数据。与现有方法相比,CharTide更加注重数据的质量和多样性,通过三视角调优策略来解耦视觉感知、纯文本代码逻辑和模态融合,使得模型能够更好地学习图表的视觉特征、代码的语法结构以及两者之间的对应关系。此外,CharTide将对齐问题重新定义为数据验证问题,通过查询驱动的强化学习框架来确保生成图表和原始图表在语义上的一致性。
关键设计:在三视角调优中,论文构建了一个包含200万个样本的数据集,并采用不同的损失函数来训练不同的流。例如,对于视觉感知流,可以使用对比学习损失来学习图表的视觉特征;对于纯文本代码逻辑流,可以使用交叉熵损失来学习代码的语法结构;对于模态融合流,可以使用多模态对比学习损失来学习图表的视觉特征和代码的语法结构之间的对应关系。在查询驱动强化学习中,论文采用了一个冻结的Inspector来验证生成图表,并根据答案的准确性提供奖励信号。Inspector可以是一个预训练的视觉问答模型,它能够根据给定的图表图像和问题生成答案。
🖼️ 关键图片
📊 实验亮点
CharTide-7B/8B在ChartMimic、Plot2Code和ChartX等数据集上显著优于开源基线,超过GPT-4o,并且与GPT-5具有竞争力。这表明CharTide在图表到代码生成任务上取得了显著的性能提升,验证了其数据中心方法的有效性。
🎯 应用场景
CharTide在数据可视化领域具有广泛的应用前景,可以用于自动生成图表代码,提高数据分析和可视化的效率。此外,该方法还可以应用于教育领域,帮助学生学习数据可视化和编程技能。未来,CharTide有望扩展到更复杂的图表类型和更高级的代码生成任务,例如生成交互式图表和数据分析报告。
📄 摘要(原文)
Chart-to-code generation demands strict visual precision and syntactic correctness from Vision-Language Models (VLMs). However, existing approaches are fundamentally constrained by data-centric limitations: despite the availability of growing chart-to-code datasets, simply scaling homogeneous chart-code pairs conflates visual perception with program logic, preventing models from fully leveraging the richness of multimodal supervision. We present CharTide, a novel data-centric framework that systematically redesigns both training and alignment data for chart-to-code generation. First, we construct a 2M-sample dataset via a Tri-Perspective Tuning strategy, explicitly decoupling training into visual perception, pure-text code logic, and modality fusion streams, enabling a 7B model to surpass specialized baselines using only supervised data. Second, we reformulate alignment as a data verification problem rather than a heuristic scoring task. To this end, we introduce an Inquiry-Driven RL framework grounded in the principle of information invariance: a downstream model should yield consistent answers to identical visual queries across both original and generated charts. Moving beyond rigid rule matching or VLM scoring, we employ a frozen Inspector to objectively verify generated charts through atomic QA tasks, providing verifiable reward signals based on answer accuracy. Experiments on ChartMimic, Plot2Code, and ChartX show that CharTide-7B/8B significantly outperforms open-source baselines, surpasses GPT-4o, and is competitive with GPT-5.