VisCoder2: Building Multi-Language Visualization Coding Agents

📄 arXiv: 2510.23642v1 📥 PDF

作者: Yuansheng Ni, Songcheng Cai, Xiangchao Chen, Jiarong Liang, Zhiheng Lyu, Jiaqi Deng, Kai Zou, Ping Nie, Fei Yuan, Xiang Yue, Wenhu Chen

分类: cs.SE, cs.AI, cs.CL, cs.PL

发布日期: 2025-10-24


💡 一句话要点

VisCoder2:构建多语言可视化代码生成Agent,提升代码生成与调试能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 可视化代码生成 多语言模型 自调试 大数据集 基准测试

📋 核心要点

  1. 现有可视化代码生成模型在语言覆盖、执行可靠性和迭代修正机制方面存在局限性,难以应用于实际工作流程。
  2. VisCoder2通过构建大规模多语言数据集、设计系统评估基准和训练多语言模型,实现了更强大的可视化代码生成和调试能力。
  3. 实验结果表明,VisCoder2显著优于开源基线,接近专有模型性能,并通过自调试进一步提升了代码执行通过率。

📝 摘要(中文)

本文提出了一系列资源以推进可视化代码生成Agent的发展。首先,构建了大规模监督数据集VisCode-Multi-679K,包含679K个经过验证且可执行的可视化样本,覆盖12种编程语言,并包含多轮修正对话。其次,设计了VisPlotBench基准测试,用于系统评估,包含可执行任务、渲染输出以及初始生成和多轮自调试的协议。最后,提出了VisCoder2,一个基于VisCode-Multi-679K训练的多语言可视化模型家族。实验表明,VisCoder2显著优于强大的开源基线模型,并接近GPT-4.1等专有模型的性能。通过迭代自调试,VisCoder2在32B规模下达到了82.4%的总体执行通过率,尤其是在符号或依赖编译器的语言中。

🔬 方法详解

问题定义:现有的大语言模型在生成可视化代码时,存在语言覆盖范围窄、代码执行不稳定、缺乏迭代修正机制等问题。这些问题限制了它们在实际工作流程中的应用,并且现有的数据集和基准测试主要集中在单轮生成和单语言任务上,无法全面评估和提升模型的能力。

核心思路:VisCoder2的核心思路是通过构建大规模多语言数据集,并在此基础上训练多语言模型,从而提升模型在不同编程语言下的可视化代码生成能力。此外,通过引入迭代自调试机制,使模型能够自我修正错误,提高代码的执行成功率。

技术框架:VisCoder2的技术框架主要包括三个部分:1) VisCode-Multi-679K数据集的构建,该数据集包含多语言、多轮修正的可视化代码样本;2) VisPlotBench基准测试的设计,用于系统评估模型的生成和调试能力;3) VisCoder2模型的训练,该模型基于Transformer架构,并在VisCode-Multi-679K数据集上进行训练。模型支持多种编程语言的可视化代码生成,并具备迭代自调试能力。

关键创新:VisCoder2的关键创新在于:1) 构建了大规模多语言可视化代码数据集VisCode-Multi-679K,显著扩展了模型的语言覆盖范围;2) 提出了VisPlotBench基准测试,能够全面评估模型的生成和调试能力;3) 实现了多语言可视化代码生成和迭代自调试,显著提升了代码的执行成功率。与现有方法相比,VisCoder2更注重实际应用场景,并提供了更全面的评估和优化方案。

关键设计:VisCoder2的关键设计包括:1) 数据集的构建过程中,采用了数据清洗、代码验证和多轮对话生成等技术,保证了数据的质量和多样性;2) 基准测试的设计过程中,考虑了不同编程语言的特点和可视化任务的复杂性,设计了多种评估指标;3) 模型训练过程中,采用了大规模预训练和微调等技术,提升了模型的泛化能力和生成质量。具体的参数设置、损失函数和网络结构等细节未在摘要中详细说明。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

VisCoder2在VisPlotBench基准测试中表现出色,显著优于开源基线模型,并接近GPT-4.1等专有模型的性能。在32B规模下,VisCoder2的总体执行通过率达到了82.4%,尤其是在符号或依赖编译器的语言中,提升更为显著。迭代自调试机制进一步提升了模型的性能。

🎯 应用场景

VisCoder2具有广泛的应用前景,可用于自动化数据可视化、辅助编程教学、生成定制化图表等领域。该研究能够降低数据可视化的门槛,提高工作效率,并促进数据驱动的决策。未来,该技术有望应用于更复杂的场景,例如交互式可视化、动态数据分析等。

📄 摘要(原文)

Large language models (LLMs) have recently enabled coding agents capable of generating, executing, and revising visualization code. However, existing models often fail in practical workflows due to limited language coverage, unreliable execution, and lack of iterative correction mechanisms. Progress has been constrained by narrow datasets and benchmarks that emphasize single-round generation and single-language tasks. To address these challenges, we introduce three complementary resources for advancing visualization coding agents. VisCode-Multi-679K is a large-scale, supervised dataset containing 679K validated and executable visualization samples with multi-turn correction dialogues across 12 programming languages. VisPlotBench is a benchmark for systematic evaluation, featuring executable tasks, rendered outputs, and protocols for both initial generation and multi-round self-debug. Finally, we present VisCoder2, a family of multi-language visualization models trained on VisCode-Multi-679K. Experiments show that VisCoder2 significantly outperforms strong open-source baselines and approaches the performance of proprietary models like GPT-4.1, with further gains from iterative self-debug, reaching 82.4% overall execution pass rate at the 32B scale, particularly in symbolic or compiler-dependent languages.