ChartM$^3$: Benchmarking Chart Editing with Multimodal Instructions

📄 arXiv: 2507.21167v3 📥 PDF

作者: Donglu Yang, Liang Zhang, Zihao Yue, Liangyu Chen, Yichen Xu, Wenxuan Wang, Qin Jin

分类: cs.CV, cs.AI

发布日期: 2025-07-25 (更新: 2025-08-06)

🔗 代码/项目: GITHUB | GITHUB | GITHUB


💡 一句话要点

提出ChartM$^3$基准,用于评估多模态指令下的图表编辑能力,并构建训练集提升模型性能。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 图表编辑 多模态学习 视觉指示器 大型语言模型 基准数据集

📋 核心要点

  1. 现有图表编辑方法主要依赖自然语言指令,但自然语言通常过于模糊,难以支持细粒度的编辑。
  2. 论文提出结合自然语言和视觉指示器的多模态图表编辑范式,视觉指示器明确指出需要修改的图表元素。
  3. 构建了ChartM$^3$基准和ChartM$^3$-Train训练集,实验表明,在训练集上微调MLLM能显著提升图表编辑性能。

📝 摘要(中文)

图表是数据分析中广泛使用的可视化格式。本文提出了一种新的多模态图表编辑范式,用户可以通过自然语言和视觉指示器的组合来表达编辑意图,视觉指示器明确地突出显示要修改的元素。为了支持这种范式,我们提出了ChartM$^3$,这是一个新的多模态图表编辑基准,具有多层次的复杂性和多角度的评估。ChartM$^3$包含1000个样本,跨越四个编辑难度级别。每个样本包括(图表,代码,多模态指令)三元组。为了全面评估图表编辑模型,ChartM$^3$提供了评估视觉外观和代码正确性的指标。我们的基准测试揭示了当前多模态大型语言模型(MLLM)的局限性,包括GPT-4o,尤其是在解释和处理视觉指示器方面的能力。为了解决这个问题,我们构建了ChartM$^3$-Train,一个包含24,000个多模态图表编辑样本的大规模训练集。在此数据集上微调MLLM可以带来显着改进,证明了多模态监督在构建实用图表编辑系统中的重要性。

🔬 方法详解

问题定义:论文旨在解决现有图表编辑方法依赖自然语言指令,导致指令模糊,无法进行细粒度编辑的问题。现有方法的痛点在于难以准确捕捉用户的编辑意图,尤其是在需要精确修改图表特定元素时。

核心思路:论文的核心思路是引入视觉指示器,与自然语言指令相结合,形成多模态指令。视觉指示器通过高亮、圈选等方式明确指出需要修改的图表元素,从而消除自然语言的歧义,提高编辑的精确性。这样设计的目的是为了更直接地表达用户的编辑意图,使模型能够更准确地理解并执行编辑操作。

技术框架:整体框架包含数据集构建和模型训练/评估两个主要部分。首先,构建ChartM$^3$基准数据集,包含图表、代码和多模态指令三元组,并划分不同难度等级。然后,构建ChartM$^3$-Train训练集,用于微调多模态大型语言模型(MLLM)。最后,使用ChartM$^3$基准评估微调后的模型性能,评估指标包括视觉外观和代码正确性。

关键创新:最重要的技术创新点在于提出了多模态图表编辑范式,将自然语言指令与视觉指示器相结合。与现有方法仅依赖自然语言指令相比,该方法能够更精确地表达用户的编辑意图,从而实现更细粒度的图表编辑。此外,构建了大规模的多模态图表编辑数据集,为模型训练提供了充足的数据支持。

关键设计:ChartM$^3$数据集包含四个难度级别,涵盖了常见的图表编辑操作。评估指标包括视觉相似度(衡量编辑后的图表与目标图表的视觉差异)和代码正确性(衡量生成的代码是否能够正确地实现编辑意图)。ChartM$^3$-Train训练集包含24,000个样本,用于微调MLLM,提升其对多模态指令的理解和执行能力。具体使用的MLLM架构和微调策略在论文中可能有所描述,但摘要中未明确提及。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在ChartM$^3$-Train数据集上微调MLLM能够显著提升图表编辑性能。具体而言,微调后的模型在视觉外观和代码正确性方面均取得了显著提升,表明多模态监督对于构建实用的图表编辑系统至关重要。虽然摘要中没有给出具体的性能数据和提升幅度,但强调了提升的显著性。

🎯 应用场景

该研究成果可应用于智能数据可视化、自动化报告生成、以及辅助数据分析等领域。通过多模态指令,用户可以更方便、更精确地编辑图表,提高数据分析的效率和质量。未来,该技术有望集成到各种数据分析工具和平台中,赋能更广泛的用户。

📄 摘要(原文)

Charts are a fundamental visualization format widely used in data analysis across research and industry. While enabling users to edit charts based on high-level intentions is of great practical value, existing methods primarily rely on natural language instructions, which are often too ambiguous to support fine-grained editing. In this work, we introduce a novel paradigm for multimodal chart editing, where user intent is expressed through a combination of natural language and visual indicators that explicitly highlight the elements to be modified. To support this paradigm, we present Chart$\text{M}^3$, a new benchmark for Multimodal chart editing with Multi-level complexity and Multi-perspective evaluation. Chart$\text{M}^3$ contains 1,000 samples spanning four levels of editing difficulty. Each sample includes triplets in the form of (chart, code, multimodal instructions). To comprehensively evaluate chart editing models, Chart$\text{M}^3$ provides metrics that assess both visual appearance and code correctness. Our benchmark reveals significant limitations in current multimodal large language models (MLLMs), including GPT-4o, particularly in their ability to interpret and act on visual indicators. To address this, we construct Chart$\text{M}^3$-Train, a large-scale training set with 24,000 multimodal chart editing samples. Fine-tuning MLLMs on this dataset leads to substantial improvements, demonstrating the importance of multimodal supervision in building practical chart editing systems. Our datasets, codes, and evaluation tools are available at https://github.com/MLrollIT/ChartM3. %https://github.com/MLrollIT/ChartM3Our datasets, codes, and evaluation tools are available at https://github.com/yaolinli/VCE.