OpusAnimation: Code-Based Dynamic Chart Generation

📄 arXiv: 2510.03341v1 📥 PDF

作者: Bozheng Li, Miao Yang, Zhenhan Chen, Jiawang Cao, Mushui Liu, Yi Lu, Yongliang Wu, Bin Zhang, Yangguang Ji, Licheng Tang, Jay Wu, Wenbo Zhu

分类: cs.CV

发布日期: 2025-10-02

备注: working in progress


💡 一句话要点

提出DCG-Bench基准和Qwen2.5-VL-DCG-3B模型,用于解决动态图表生成任务。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 动态图表生成 多模态大语言模型 基准测试 数据集构建 群体相对策略优化

📋 核心要点

  1. 现有的多模态大语言模型在动态图表生成和理解方面能力不足,缺乏专门的评估基准。
  2. 提出DCG-Bench基准和DCG-8K数据集,并采用联合代码-视觉奖励的群体相对策略优化方法。
  3. 实验表明,提出的Qwen2.5-VL-DCG-3B模型在动态图表生成任务上优于现有开源模型。

📝 摘要(中文)

动态图表生成(DCG)涉及生成代码渲染的动画可视化图表。尽管最近多模态大型语言模型(MLLM)在静态图表生成和理解方面的能力显著提高,但MLLM在处理动态图表生成和理解方面的潜力仍未被充分探索。为了弥合这一研究差距,我们引入了DCG-Bench(动态图表生成基准),这是第一个从三个维度评估MLLM在动态图表生成任务上的能力的基准:简单文本到图表、详细文本到图表和视频到图表任务。我们构建了DCG-8K,这是一个高质量的DCG数据集,包含指令-代码-视频三元组和代码及视频评估的问答对。基于DCG-8K,我们探索了一种两阶段训练方法,提出了联合代码-视觉奖励用于群体相对策略优化,构建了用于DCG任务的专家MLLM Qwen2.5-VL-DCG-3B。我们的基准测试结果揭示了现有MLLM在视觉到图表任务中的缺点,并且我们的模型在三个任务中的平均性能比最佳开源MLLM提高了8.31%,并且仅使用3B参数就显示出与专有模型相当的性能,证明了我们训练方法的有效性。我们的代码和数据集将公开发布。

🔬 方法详解

问题定义:论文旨在解决动态图表生成(DCG)问题,即根据文本描述或视频数据生成代码渲染的动画图表。现有方法,特别是基于多模态大语言模型(MLLM)的方法,在静态图表生成方面取得了进展,但在动态图表生成方面的能力仍有待提高,缺乏专门的基准测试和训练数据。

核心思路:论文的核心思路是构建一个专门用于动态图表生成的基准测试集(DCG-Bench)和一个高质量的数据集(DCG-8K),并在此基础上训练一个专家级的MLLM模型。通过两阶段训练方法,利用联合代码-视觉奖励进行群体相对策略优化,提升模型在动态图表生成任务上的性能。

技术框架:整体框架包含数据收集与标注、基准测试集构建、模型训练和评估三个主要阶段。首先,构建包含指令-代码-视频三元组和问答对的DCG-8K数据集。然后,基于DCG-8K,采用两阶段训练方法训练MLLM模型。最后,使用DCG-Bench基准测试集评估模型在简单文本到图表、详细文本到图表和视频到图表三个任务上的性能。

关键创新:论文的关键创新在于:1) 提出了首个动态图表生成基准测试集DCG-Bench和高质量数据集DCG-8K;2) 提出了联合代码-视觉奖励用于群体相对策略优化,以提升模型在动态图表生成任务上的性能。与现有方法相比,该方法更专注于动态图表生成,并利用代码和视觉信息进行联合优化。

关键设计:在训练过程中,采用了两阶段训练方法。第一阶段是预训练阶段,使用大规模多模态数据进行模型初始化。第二阶段是微调阶段,使用DCG-8K数据集和联合代码-视觉奖励进行群体相对策略优化。具体而言,联合代码-视觉奖励结合了代码执行结果和视频视觉效果的评估,以更全面地衡量生成图表的质量。模型采用Qwen2.5-VL架构,并进行了针对DCG任务的优化。

📊 实验亮点

实验结果表明,提出的Qwen2.5-VL-DCG-3B模型在DCG-Bench基准测试集上取得了显著的性能提升,平均性能比最佳开源MLLM提高了8.31%。此外,该模型仅使用3B参数,就达到了与专有模型相当的性能水平,证明了所提出的训练方法的有效性。

🎯 应用场景

该研究成果可应用于数据可视化、商业智能、教育等领域。例如,可以根据新闻报道自动生成动态图表,帮助用户更直观地理解数据变化趋势;也可以用于辅助教学,生成生动的动画图表,提高学生的学习兴趣和理解能力。未来,该技术有望进一步扩展到更复杂的动态数据可视化场景。

📄 摘要(原文)

Dynamic Chart Generation (DCG) involves producing code-rendered animated visualizations as charts. While recent advances in multi-modal large language models (MLLMs) have significantly improved their capability on static chart generation and comprehension, MLLMs' potential for handling dynamic chart generation and understanding remains underexplored. To bridge this research gap, we introduce DCG-Bench (Dynamic Chart Generation Benchmark), the first benchmark evaluating MLLM's capability on dynamic chart generation tasks from three dimensions: Simple Text-to-Chart, Detailed Text-to-Chart, and Video-to-Chart tasks. We construct DCG-8K, a high-quality DCG dataset with annotations covering instruction-code-video triplets and QA pairs for both code and video evaluation. Based on DCG-8K, we explored a two-stage training recipe, proposing Joint-Code-Visual Reward for group relative policy optimization to construct expert MLLM Qwen2.5-VL-DCG-3B for the DCG task. Our benchmarking result reveals shortcomings of existing MLLMs in the visual-to-chart task, and our model beats the best open-sourced MLLM with an average 8.31% performance gain across three tasks, and shows on par performance against proprietary models with only 3B parameters, proving the effectiveness of our training recipe. Our code and dataset will be publicly available.