Scientific Graphics Program Synthesis via Dual Self-Consistency Reinforcement Learning

📄 arXiv: 2604.06079v1 📥 PDF

作者: Juekai Lin, Yun Zhu, Honglin Lin, Sijing Li, Tianwei Lin, Zheng Liu, Xiaoyang Wang, Wenqiao Zhang, Lijun Wu

分类: cs.CV, cs.AI

发布日期: 2026-04-07


💡 一句话要点

提出基于双重自洽强化学习的科学图形程序合成方法,提升TikZ代码生成质量。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 图形程序合成 TikZ代码生成 强化学习 自洽性学习 科学绘图

📋 核心要点

  1. 现有图像到TikZ代码的生成方法面临数据质量和评估基准的挑战,导致生成代码的可执行性和视觉对齐效果不佳。
  2. 论文提出双重自洽强化学习范式,利用往返验证机制惩罚低质量代码,提升模型生成代码的自洽性和整体质量。
  3. 实验表明,提出的SciTikZer-8B模型在科学图形程序合成任务上取得了SOTA性能,超越了Gemini-2.5-Pro和Qwen3-VL-235B-A22B-Instruct等模型。

📝 摘要(中文)

图形程序合成对于解释和编辑视觉数据至关重要,能够有效地将静态视觉效果逆向工程为可编辑的TikZ代码。TikZ因其程序化的灵活性而成为科学示意图的事实标准,但其对严格空间精度的要求对多模态大型语言模型提出了重大挑战。目前进展受限于两个主要差距:(1)数据质量差距:现有的图像-TikZ语料库通常缺乏严格的可执行性和可靠的视觉对齐;(2)评估差距:缺乏针对结构和视觉保真度的基准。为了解决这些问题,我们提出了一个闭环框架,包括:SciTikZ-230K,一个来自我们以执行为中心的数据引擎的大规模、高质量数据集,涵盖11个不同的科学学科;SciTikZ-Bench,一个多方面的基准,从基本的几何结构到复杂的层次示意图,以评估视觉保真度和结构逻辑。为了进一步拓宽视觉-代码优化方法的范围,我们引入了一种新颖的双重自洽强化学习优化范式,它利用往返验证来惩罚退化的代码并提高整体自洽性。在这些的支持下,我们训练的模型SciTikZer-8B实现了最先进的性能,始终优于像Gemini-2.5-Pro这样的专有巨头和像Qwen3-VL-235B-A22B-Instruct这样的大型模型。

🔬 方法详解

问题定义:论文旨在解决科学图形程序合成问题,具体而言,是将科学图像转换为可编辑的TikZ代码。现有方法,特别是基于多模态大型语言模型的方法,在生成精确且可执行的TikZ代码方面存在困难,主要原因是缺乏高质量的训练数据和有效的评估基准,导致模型难以保证生成代码的结构和视觉保真度。

核心思路:论文的核心思路是利用双重自洽强化学习来优化视觉到代码的生成过程。通过引入往返验证机制,模型可以自我评估生成代码的质量,并根据评估结果进行改进。这种自洽性约束能够有效地惩罚低质量或错误的TikZ代码,并鼓励模型生成更准确、更符合视觉信息的代码。

技术框架:整体框架包含三个主要组成部分:1) Execution-Centric Data Engine,用于构建大规模高质量的SciTikZ-230K数据集;2) SciTikZ-Bench,用于评估模型在视觉保真度和结构逻辑方面的性能;3) Dual Self-Consistency Reinforcement Learning,用于优化视觉-代码生成模型。该框架通过闭环反馈机制,不断提升模型生成TikZ代码的质量。

关键创新:论文的关键创新在于提出了双重自洽强化学习优化范式。与传统的监督学习或强化学习方法不同,该方法利用往返验证来评估生成代码的质量,并根据评估结果进行优化。这种自洽性约束能够有效地提高生成代码的准确性和可执行性。

关键设计:双重自洽强化学习的具体实现包括:1) 使用视觉-代码生成模型生成TikZ代码;2) 使用TikZ编译器执行生成的代码,得到渲染图像;3) 将渲染图像与原始图像进行比较,计算视觉相似度;4) 根据视觉相似度和代码执行结果,计算奖励信号;5) 使用强化学习算法(例如,Policy Gradient)优化视觉-代码生成模型。此外,论文还设计了SciTikZ-Bench基准,用于评估模型在不同难度级别的科学图形程序合成任务上的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SciTikZer-8B模型在SciTikZ-Bench基准测试中取得了显著的性能提升,超越了Gemini-2.5-Pro和Qwen3-VL-235B-A22B-Instruct等大型模型。实验结果表明,提出的双重自洽强化学习方法能够有效地提高生成TikZ代码的质量和准确性,尤其是在处理复杂的科学图形时。

🎯 应用场景

该研究成果可应用于科学绘图的自动化生成、视觉数据的编辑和解释、以及教育领域。通过将科学图像转换为可编辑的TikZ代码,研究人员可以更方便地修改和复用已有的图形资源,提高科研效率。此外,该技术还可以用于辅助教学,帮助学生理解和掌握科学图形的绘制方法。

📄 摘要(原文)

Graphics Program Synthesis is pivotal for interpreting and editing visual data, effectively facilitating the reverse-engineering of static visuals into editable TikZ code. While TikZ is the de facto standard for scientific schematics due to its programmatic flexibility, its requirement for rigorous spatial precision presents a significant challenge for Multimodal Large Language Models. Progress is currently stifled by two primary gaps: (1) Data Quality Gap: existing image-TikZ corpora often lack strict executability and reliable visual alignment; (2) Evaluation Gap: a lack of benchmarks for both structural and visual fidelity. To address these, we present a closed-loop framework featuring: SciTikZ-230K, a large-scale, high-quality dataset from our Execution-Centric Data Engine covering 11 diverse scientific disciplines; SciTikZ-Bench, a multifaceted benchmark spanning from basic geometric constructs to intricate hierarchical schematics to evaluate both visual fidelity and structural logic. To further broaden the scope of visual-code optimization methodology, we introduce a novel Dual Self-Consistency Reinforcement Learning optimization paradigm, which utilizes Round-Trip Verification to penalize degenerate code and boost overall self-consistency. Empowered by these, our trained model SciTikZer-8B achieves state-of-the-art performance, consistently outperforming proprietary giants like Gemini-2.5-Pro and massive models like Qwen3-VL-235B-A22B-Instruct.