ChartE$^{3}$: A Comprehensive Benchmark for End-to-End Chart Editing

作者: Shuo Li, Jiajun Sun, Zhekai Wang, Xiaoran Fan, Hui Li, Dingwen Yang, Zhiheng Xi, Yijun Wang, Zifei Shan, Tao Gui, Qi Zhang, Xuanjing Huang

分类: cs.CV

发布日期: 2026-01-29

备注: Our benchmark will be publicly available at https://github.com/galactic123/ChartE3

💡 一句话要点

提出ChartE$^{3}$基准，用于端到端图表编辑的全面评估与能力提升。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 图表编辑 端到端学习 多模态学习 基准数据集 数据可视化

📋 核心要点

现有图表编辑方法依赖中间表示（如自然语言或代码），限制了复杂编辑的执行能力。
ChartE$^{3}$基准直接评估端到端图表编辑模型，无需中间表示，关注局部和全局编辑。
实验表明，现有模型在ChartE$^{3}$基准上存在显著性能差距，尤其是在全局编辑方面。

📝 摘要（中文）

图表是结构化数据分析的基础可视化格式。根据用户意图实现端到端图表编辑具有重要的实际价值，但由于需要细粒度的控制和全局结构的一致性，因此仍然具有挑战性。现有方法大多采用基于流水线的设计，其中自然语言或代码作为中间表示，限制了它们忠实地执行复杂编辑的能力。我们引入了ChartE$^{3}$，这是一个端到端图表编辑基准，可以直接评估模型，而无需依赖中间自然语言程序或代码级监督。ChartE$^{3}$侧重于两个互补的编辑维度：局部编辑，涉及字体或颜色调整等细粒度的外观更改；以及全局编辑，需要整体的、以数据为中心的转换，包括数据过滤和趋势线添加。ChartE$^{3}$包含1200多个高质量样本，这些样本通过精心设计的数据管道和人工管理构建。每个样本都以图表图像、其底层代码和多模态编辑指令的三元组形式提供，从而可以从客观和主观的角度进行评估。对最先进的多模态大型语言模型的广泛基准测试揭示了显著的性能差距，尤其是在全局编辑任务上，突出了当前端到端图表编辑能力的关键局限性。

🔬 方法详解

问题定义：论文旨在解决端到端图表编辑的问题，即直接根据用户指令修改图表图像，而无需依赖中间的自然语言或代码表示。现有方法通常采用pipeline的方式，先将用户指令转换为自然语言或代码，再生成图表，这种方式的缺点在于中间表示可能会丢失信息，导致编辑结果不准确，难以处理复杂的编辑任务。

核心思路：论文的核心思路是建立一个高质量的端到端图表编辑基准，用于直接评估模型在图表编辑任务上的性能。该基准包含丰富的编辑类型，包括局部编辑（如修改颜色、字体）和全局编辑（如数据过滤、添加趋势线），从而能够全面评估模型的编辑能力。通过在该基准上评估现有模型，可以发现模型的不足之处，并为未来的研究提供方向。

技术框架：ChartE$^{3}$基准包含超过1200个高质量样本，每个样本由一个图表图像、其对应的代码以及一个多模态编辑指令组成。数据构建流程包括：1) 从公开数据集中收集图表数据；2) 使用图表生成工具生成图表图像；3) 设计编辑指令，包括局部编辑和全局编辑；4) 人工审核和修正数据，确保数据质量。

关键创新：ChartE$^{3}$基准的关键创新在于它是一个端到端的评估基准，可以直接评估模型在图表编辑任务上的性能，而无需依赖中间表示。此外，该基准包含丰富的编辑类型，可以全面评估模型的编辑能力。与现有方法相比，ChartE$^{3}$更加注重模型的实际应用能力，能够更好地反映模型的真实性能。

关键设计：ChartE$^{3}$基准在数据构建过程中，采用了多种策略来保证数据质量。例如，对于全局编辑任务，采用了数据过滤和趋势线添加等操作，这些操作需要对图表数据进行深入理解和处理。此外，为了保证编辑指令的多样性，采用了人工设计和数据增强等方法。在评估指标方面，采用了客观指标（如编辑准确率）和主观指标（如人工评估），从而能够全面评估模型的性能。

📊 实验亮点

在ChartE$^{3}$基准上的实验结果表明，现有最先进的多模态大型语言模型在图表编辑任务上存在显著的性能差距，尤其是在全局编辑任务上。例如，在数据过滤和趋势线添加等任务上，模型的编辑准确率较低，表明模型对图表数据的理解和处理能力不足。这些结果突出了当前端到端图表编辑能力的局限性，为未来的研究提供了明确的方向。

🎯 应用场景

该研究成果可应用于智能数据分析、自动化报告生成、个性化图表定制等领域。通过端到端图表编辑，用户可以更方便地修改和优化图表，从而更好地理解和分析数据。未来，该技术有望应用于商业智能、科学研究、教育等领域，提高数据可视化的效率和质量。

📄 摘要（原文）

Charts are a fundamental visualization format for structured data analysis. Enabling end-to-end chart editing according to user intent is of great practical value, yet remains challenging due to the need for both fine-grained control and global structural consistency. Most existing approaches adopt pipeline-based designs, where natural language or code serves as an intermediate representation, limiting their ability to faithfully execute complex edits. We introduce ChartE$^{3}$, an End-to-End Chart Editing benchmark that directly evaluates models without relying on intermediate natural language programs or code-level supervision. ChartE$^{3}$ focuses on two complementary editing dimensions: local editing, which involves fine-grained appearance changes such as font or color adjustments, and global editing, which requires holistic, data-centric transformations including data filtering and trend line addition. ChartE$^{3}$ contains over 1,200 high-quality samples constructed via a well-designed data pipeline with human curation. Each sample is provided as a triplet of a chart image, its underlying code, and a multimodal editing instruction, enabling evaluation from both objective and subjective perspectives. Extensive benchmarking of state-of-the-art multimodal large language models reveals substantial performance gaps, particularly on global editing tasks, highlighting critical limitations in current end-to-end chart editing capabilities.

ChartE$^{3}$: A Comprehensive Benchmark for End-to-End Chart Editing

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理