CharXiv: Charting Gaps in Realistic Chart Understanding in Multimodal LLMs

📄 arXiv: 2406.18521v1 📥 PDF

作者: Zirui Wang, Mengzhou Xia, Luxi He, Howard Chen, Yitao Liu, Richard Zhu, Kaiqu Liang, Xindi Wu, Haotian Liu, Sadhika Malladi, Alexis Chevalier, Sanjeev Arora, Danqi Chen

分类: cs.CL, cs.CV

发布日期: 2024-06-26

备注: 121 pages, 90 figures


💡 一句话要点

CharXiv:揭示多模态LLM在真实图表理解中的差距

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 图表理解 大型语言模型 数据集构建 视觉推理

📋 核心要点

  1. 现有图表理解数据集过于简化,无法真实评估MLLM在复杂图表上的性能。
  2. 提出CharXiv数据集,包含来自arXiv论文的2323个自然图表,并设计描述性和推理问题。
  3. 实验表明,现有MLLM在CharXiv上表现远低于人类水平,揭示了图表理解能力的差距。

📝 摘要(中文)

图表理解在将多模态大型语言模型(MLLM)应用于分析科学论文或财务报告等实际任务时起着关键作用。然而,现有的数据集通常侧重于过度简化和同质化的图表,以及基于模板的问题,导致对进展的过度乐观评估。我们证明,尽管开源模型在这些基准测试中似乎优于强大的专有模型,但通过略有不同的图表或问题进行简单的压力测试可能会使性能下降高达34.5%。在这项工作中,我们提出了CharXiv,这是一个全面的评估套件,包含来自arXiv论文的2,323个自然、具有挑战性和多样化的图表。CharXiv包括两种类型的问题:1)关于检查基本图表元素的描述性问题;2)需要综合图表中复杂视觉元素信息的推理问题。为了确保质量,所有图表和问题都经过人工专家的精心挑选、策划和验证。我们的结果揭示了最强大的专有模型(即GPT-4o,达到47.1%的准确率)和最强大的开源模型(即InternVL Chat V1.5,达到29.2%)之间的推理能力存在显著的、先前被低估的差距。所有模型都远远落后于80.5%的人类表现,突显了现有MLLM在图表理解能力方面的弱点。我们希望CharXiv通过提供更现实和忠实的进展衡量标准,促进未来对MLLM图表理解的研究。

🔬 方法详解

问题定义:现有图表理解数据集过于简单,无法准确评估MLLM在真实场景下的图表理解能力。这些数据集通常包含模板化的图表和问题,导致模型在这些数据集上表现良好,但实际应用中性能下降。现有方法缺乏对复杂图表和推理能力的有效评估。

核心思路:构建一个更具挑战性和真实性的图表理解数据集,以更准确地评估MLLM的性能。通过引入来自arXiv论文的自然图表,并设计需要推理的问题,来测试模型在复杂场景下的图表理解能力。

技术框架:CharXiv数据集包含2323个来自arXiv论文的图表,涵盖多种图表类型和领域。数据集中的问题分为两类:描述性问题和推理问题。描述性问题旨在测试模型对图表基本元素的理解,而推理问题则需要模型综合图表中的信息进行推理。所有图表和问题都经过人工专家的筛选和验证,以确保质量。

关键创新:CharXiv数据集的关键创新在于其真实性和复杂性。与现有数据集相比,CharXiv中的图表来自真实的科学论文,更具多样性和挑战性。此外,推理问题的设计旨在测试模型的高级推理能力,而不仅仅是简单的图表元素识别。

关键设计:为了确保数据集的质量,作者采用了严格的人工筛选和验证流程。每个图表都由多位专家进行评估,以确保其清晰度和信息量。问题也经过多次修改和验证,以确保其准确性和难度。此外,作者还设计了一套评估指标,用于衡量模型在描述性和推理问题上的表现。

🖼️ 关键图片

img_0

📊 实验亮点

实验结果表明,即使是最强大的专有模型GPT-4o在CharXiv上的准确率也仅为47.1%,而最强的开源模型InternVL Chat V1.5的准确率仅为29.2%。所有模型都远低于人类的80.5%水平。这表明现有MLLM在真实图表理解方面存在显著差距,CharXiv能够有效揭示这些差距。

🎯 应用场景

该研究成果可应用于提升MLLM在科学研究、金融分析等领域的应用能力。通过更准确地理解图表,MLLM可以更好地辅助研究人员分析数据、提取信息,并做出决策。未来,该研究可以推动MLLM在自动化报告生成、智能数据分析等方面的应用。

📄 摘要(原文)

Chart understanding plays a pivotal role when applying Multimodal Large Language Models (MLLMs) to real-world tasks such as analyzing scientific papers or financial reports. However, existing datasets often focus on oversimplified and homogeneous charts with template-based questions, leading to an over-optimistic measure of progress. We demonstrate that although open-source models can appear to outperform strong proprietary models on these benchmarks, a simple stress test with slightly different charts or questions can deteriorate performance by up to 34.5%. In this work, we propose CharXiv, a comprehensive evaluation suite involving 2,323 natural, challenging, and diverse charts from arXiv papers. CharXiv includes two types of questions: 1) descriptive questions about examining basic chart elements and 2) reasoning questions that require synthesizing information across complex visual elements in the chart. To ensure quality, all charts and questions are handpicked, curated, and verified by human experts. Our results reveal a substantial, previously underestimated gap between the reasoning skills of the strongest proprietary model (i.e., GPT-4o), which achieves 47.1% accuracy, and the strongest open-source model (i.e., InternVL Chat V1.5), which achieves 29.2%. All models lag far behind human performance of 80.5%, underscoring weaknesses in the chart understanding capabilities of existing MLLMs. We hope CharXiv facilitates future research on MLLM chart understanding by providing a more realistic and faithful measure of progress. Project page and leaderboard: https://charxiv.github.io/