ChartComplete: A Taxonomy-based Inclusive Chart Dataset
作者: Ahmad Mustapha, Charbel Toumieh, Mariette Awad
分类: cs.AI, cs.CV
发布日期: 2026-01-15
备注: 7 pages, 4 figures, 3 tables, 1 algorithm. Dataset and source code available at https://github.com/AI-DSCHubAUB/ChartComplete-Dataset
💡 一句话要点
提出ChartComplete数据集,扩展图表理解领域的数据集覆盖范围。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 图表理解 数据集 多模态学习 计算机视觉 深度学习
📋 核心要点
- 现有的图表理解数据集在图表类型覆盖上存在局限性,无法全面评估多模态大语言模型(MLLM)的性能。
- ChartComplete数据集基于图表分类学,涵盖30种不同的图表类型,旨在弥补现有数据集在图表类型覆盖上的不足。
- ChartComplete数据集提供已分类的图表图像,不包含学习信号,鼓励社区在此基础上构建更完善的图表理解系统。
📝 摘要(中文)
随着深度学习和计算机视觉技术的进步,图表理解领域正在迅速发展。特别是,多模态大型语言模型(MLLM)在理解图表方面表现出高效和准确性。为了准确衡量MLLM的性能,研究界开发了多个数据集作为基准。通过检查这些数据集,我们发现它们都仅限于一小部分图表类型。为了弥合这一差距,我们提出了ChartComplete数据集。该数据集基于来自可视化社区的图表分类法,涵盖了三十种不同的图表类型。该数据集是分类图表图像的集合,不包含学习信号。我们将ChartComplete数据集按原样呈现给社区,以便在其基础上进行构建。
🔬 方法详解
问题定义:现有图表理解数据集的痛点在于图表类型覆盖范围有限,无法充分评估和训练多模态大型语言模型(MLLM)在各种图表上的理解能力。这限制了MLLM在实际应用中的泛化能力。
核心思路:ChartComplete的核心思路是构建一个包含更广泛图表类型的数据集,基于已有的图表分类学,覆盖尽可能多的图表类型,从而为MLLM提供更全面的训练和评估数据。这样可以提升MLLM在各种图表上的理解能力和泛化性能。
技术框架:ChartComplete数据集的构建主要包含以下几个阶段: 1. 图表类型选择:基于可视化社区的图表分类学,选择30种不同的图表类型。 2. 数据收集:收集各种图表类型的图像数据。 3. 数据标注:对收集到的图表图像进行分类标注,确保每张图像都对应正确的图表类型。 4. 数据集发布:将标注好的图表图像数据集发布给社区,供研究人员使用。
关键创新:ChartComplete的主要创新在于其数据集的全面性,它显著扩展了现有图表理解数据集的图表类型覆盖范围。与现有数据集相比,ChartComplete提供了更广泛的图表类型,从而能够更全面地评估和训练MLLM的图表理解能力。
关键设计:ChartComplete数据集的关键设计在于其基于图表分类学的图表类型选择,以及对收集到的图表图像进行准确的分类标注。由于该数据集不包含学习信号,因此没有涉及到损失函数或网络结构等技术细节。重点在于数据集的质量和多样性。
🖼️ 关键图片
📊 实验亮点
ChartComplete数据集涵盖了30种不同的图表类型,显著扩展了现有图表理解数据集的覆盖范围。虽然论文没有提供具体的性能数据,但该数据集的发布为研究人员提供了一个更全面的基准,可以用于更准确地评估MLLM在图表理解方面的性能。
🎯 应用场景
ChartComplete数据集可用于训练和评估多模态大型语言模型(MLLM)在图表理解方面的能力,从而提升MLLM在数据分析、报告生成、信息检索等领域的应用效果。该数据集还可以促进图表理解算法的开发和改进,推动图表理解技术在各行业的广泛应用。
📄 摘要(原文)
With advancements in deep learning (DL) and computer vision techniques, the field of chart understanding is evolving rapidly. In particular, multimodal large language models (MLLMs) are proving to be efficient and accurate in understanding charts. To accurately measure the performance of MLLMs, the research community has developed multiple datasets to serve as benchmarks. By examining these datasets, we found that they are all limited to a small set of chart types. To bridge this gap, we propose the ChartComplete dataset. The dataset is based on a chart taxonomy borrowed from the visualization community, and it covers thirty different chart types. The dataset is a collection of classified chart images and does not include a learning signal. We present the ChartComplete dataset as is to the community to build upon it.