Boosting Chart-to-Code Generation in MLLM via Dual Preference-Guided Refinement
作者: Zhihan Zhang, Yixin Cao, Lizi Liao
分类: cs.CL, cs.AI
发布日期: 2025-04-03 (更新: 2025-08-20)
备注: Accepted by ACM MM 2025
🔗 代码/项目: GITHUB
💡 一句话要点
提出双重偏好引导的精炼框架,提升MLLM在图表到代码生成任务中的性能
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 图表到代码生成 多模态大型语言模型 偏好学习 强化学习 视觉奖励模型
📋 核心要点
- 图表到代码生成任务对MLLM提出了细粒度视觉解析、精确代码合成和跨模态推理的挑战,现有方法难以有效学习。
- 论文提出双重偏好引导的精炼框架,结合反馈驱动的奖励机制和迭代偏好学习,优化模型的多维保真度。
- 实验结果表明,该框架显著提升了通用开源MLLM的性能,使其生成的代码质量可与专用模型媲美。
📝 摘要(中文)
本文提出了一种双重偏好引导的精炼框架,旨在提升多模态大型语言模型(MLLM)在图表到代码生成任务中的性能。该任务要求MLLM执行细粒度的视觉解析、精确的代码合成和鲁棒的跨模态推理。由于同一图表可以由多种有效的代码实现生成,且评估需考虑代码正确性和视觉保真度,该任务本质上是欠约束的。为了解决这些挑战,本文结合反馈驱动的双模态奖励机制与迭代偏好学习,提出了一种结构化的变体生成策略和一个视觉奖励模型,以高效生成高质量、具有方面意识的偏好对,从而使偏好收集更具可扩展性,监督更具针对性。这些偏好在离线强化学习设置中使用,以优化模型,使其朝着多维保真度发展。实验结果表明,该框架显著提高了通用开源MLLM的性能,使其能够生成高质量的绘图代码,媲美专门的图表中心模型,甚至一些专有系统。
🔬 方法详解
问题定义:图表到代码生成任务旨在将图表图像转换为可执行的绘图脚本。现有方法,特别是基于监督微调的方法,难以处理该任务的欠约束性,即多种代码实现可以生成相同的图表,且评估需要考虑代码正确性和视觉保真度等多个维度。这导致模型难以学习到准确且泛化的映射关系。
核心思路:论文的核心思路是通过引入偏好学习来解决图表到代码生成任务的欠约束性问题。具体来说,通过生成多个候选代码,并利用奖励模型评估这些代码的质量,从而构建偏好对。然后,使用这些偏好对来训练模型,使其能够生成更符合人类偏好的代码。
技术框架:该框架包含以下几个主要模块:1) 结构化变体生成策略:生成多个候选代码变体。2) 双模态奖励模型:评估候选代码的质量,包括代码正确性和视觉保真度。3) 偏好学习:利用生成的偏好对来训练MLLM。整个流程是迭代进行的,通过不断生成新的候选代码、评估和学习,逐步提升模型的性能。
关键创新:最重要的技术创新点在于双重偏好引导的精炼框架,它结合了反馈驱动的双模态奖励机制与迭代偏好学习。与传统的监督学习方法不同,该框架不需要大量的标注数据,而是通过自我生成的偏好对来指导模型的学习。此外,结构化的变体生成策略和视觉奖励模型使得偏好收集更具可扩展性和针对性。
关键设计:结构化变体生成策略通过对代码的不同部分进行修改来生成候选代码,例如修改颜色、线条样式等。双模态奖励模型结合了代码执行结果和视觉相似度来评估代码的质量。偏好学习使用离线强化学习方法,例如Direct Preference Optimization (DPO),来优化模型,使其能够生成更符合人类偏好的代码。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该框架显著提高了通用开源MLLM的性能。例如,在Chart2Code数据集上,该框架使MLLM生成的代码质量超过了专门的图表中心模型,甚至可以与一些专有系统相媲美。具体而言,在代码正确性和视觉保真度等指标上,该框架都取得了显著的提升。
🎯 应用场景
该研究成果可应用于自动化数据可视化、报告生成、数据分析等领域。通过将图表图像转换为可执行代码,可以方便用户对图表进行修改和定制,提高数据分析的效率和灵活性。未来,该技术有望应用于更广泛的领域,例如智能教育、人机交互等。
📄 摘要(原文)
Translating chart images into executable plotting scripts-referred to as the chart-to-code generation task-requires Multimodal Large Language Models (MLLMs) to perform fine-grained visual parsing, precise code synthesis, and robust cross-modal reasoning. However, this task is inherently under-constrained: multiple valid code implementations can produce the same visual chart, and evaluation must consider both code correctness and visual fidelity across diverse dimensions. This makes it difficult to learn accurate and generalizable mappings through standard supervised fine-tuning. To address these challenges, we propose a dual preference-guided refinement framework that combines a feedback-driven, dual-modality reward mechanism with iterative preference learning. Our approach introduces a structured variant generation strategy and a visual reward model to efficiently produce high-quality, aspect-aware preference pairs-making preference collection scalable and supervision more targeted. These preferences are used in an offline reinforcement learning setup to optimize the model toward multi-dimensional fidelity. Experimental results show that our framework significantly enhances the performance of general-purpose open-source MLLMs, enabling them to generate high-quality plotting code that rivals specialized chart-centric models and even some proprietary systems. The code and datasets are publicly available at https://github.com/Zhihan72/Chart2Code.