ChartInsights: Evaluating Multimodal Large Language Models for Low-Level Chart Question Answering

📄 arXiv: 2405.07001v4 📥 PDF

作者: Yifan Wu, Lutao Yan, Leixian Shen, Yunhai Wang, Nan Tang, Yuyu Luo

分类: cs.CL, cs.AI, cs.CV

发布日期: 2024-05-11 (更新: 2024-11-06)

备注: EMNLP 2024 Conference Paper


💡 一句话要点

ChartInsights:评估多模态大语言模型在低级图表问答任务中的性能

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 图表问答 多模态大语言模型 低层次任务 数据集 提示策略

📋 核心要点

  1. 现有MLLM在高级图表问答任务表现良好,但在低级图表问答任务(如识别相关性)中的能力有待考察。
  2. 提出ChartInsights数据集,并设计Chain-of-Charts文本提示和视觉提示策略,提升MLLM在低级图表问答任务中的性能。
  3. 实验表明,Chain-of-Charts提示策略可将准确率提升14.41%,结合视觉提示后,准确率进一步提升至84.32%。

📝 摘要(中文)

图表问答(ChartQA)任务在理解和提取可视化图表中的信息方面起着关键作用。尽管最近多模态大语言模型(MLLM),如GPT-4o,在高层次ChartQA任务(例如图表描述)中表现出潜力,但它们在低层次ChartQA任务(例如识别相关性)中的有效性仍未得到充分探索。本文通过使用新构建的数据集ChartInsights评估MLLM在低层次ChartQA上的性能来填补这一空白。ChartInsights包含22,347个(图表,任务,查询,答案)样本,涵盖7种图表类型的10个数据分析任务。我们系统地评估了19个先进的MLLM,包括12个开源模型和7个闭源模型。这些模型的平均准确率为39.8%,其中GPT-4o的准确率最高,为69.17%。为了进一步探索MLLM在低层次ChartQA中的局限性,我们进行了实验,改变图表的视觉元素(例如,改变配色方案,添加图像噪声)以评估它们对任务有效性的影响。此外,我们提出了一种新的文本提示策略Chain-of-Charts,专为低层次ChartQA任务定制,该策略将性能提高了14.41%,达到83.58%的准确率。最后,结合视觉提示策略,将注意力引导到相关的视觉元素,进一步将准确率提高到84.32%。

🔬 方法详解

问题定义:论文旨在解决多模态大语言模型(MLLM)在低层次图表问答(ChartQA)任务中表现不足的问题。现有方法在高层次的图表描述等任务中表现尚可,但在需要更深入数据分析和推理的低层次任务(例如识别图表中的相关性、趋势等)中,性能显著下降。现有的MLLM缺乏对图表细节的精确理解和推理能力,难以有效应对低层次ChartQA任务的挑战。

核心思路:论文的核心思路是通过构建专门的数据集和设计针对性的提示策略来提升MLLM在低层次ChartQA任务中的性能。具体来说,首先构建了一个包含丰富低层次ChartQA任务的数据集ChartInsights,用于训练和评估MLLM。然后,提出了Chain-of-Charts文本提示策略,引导模型逐步推理,以及结合视觉提示策略,将模型的注意力引导到图表中的关键视觉元素,从而提高模型的理解和推理能力。

技术框架:整体框架包括数据收集与标注、模型评估、提示策略设计和实验验证四个主要阶段。首先,构建ChartInsights数据集,包含多种图表类型和数据分析任务。然后,选择一系列先进的MLLM进行评估,分析其在低层次ChartQA任务中的性能瓶颈。接着,设计Chain-of-Charts文本提示策略和视觉提示策略,并将其应用于MLLM。最后,通过实验验证提示策略的有效性,并分析不同因素对模型性能的影响。

关键创新:论文的关键创新在于以下几个方面:1) 构建了专门用于评估低层次ChartQA任务的数据集ChartInsights,填补了现有数据集的空白。2) 提出了Chain-of-Charts文本提示策略,通过引导模型逐步推理,显著提升了模型性能。3) 结合视觉提示策略,将模型的注意力引导到图表中的关键视觉元素,进一步提高了模型性能。与现有方法相比,该方法更注重对图表细节的理解和推理,能够更好地应对低层次ChartQA任务的挑战。

关键设计:Chain-of-Charts提示策略的关键设计在于将复杂的低层次ChartQA任务分解为一系列简单的子任务,并引导模型逐步完成这些子任务。例如,对于识别图表相关性的任务,提示策略会引导模型首先识别图表中的变量,然后分析这些变量之间的关系,最后得出结论。视觉提示策略的关键设计在于使用注意力机制或者其他视觉引导技术,将模型的注意力引导到图表中的关键视觉元素,例如数据点、坐标轴等。具体的参数设置和网络结构细节未在摘要中详细描述,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,现有MLLM在ChartInsights数据集上的平均准确率为39.8%,GPT-4o的准确率最高,为69.17%。通过应用Chain-of-Charts文本提示策略,模型性能提升了14.41%,准确率达到83.58%。进一步结合视觉提示策略后,准确率提升至84.32%。这些结果表明,所提出的提示策略能够显著提升MLLM在低层次ChartQA任务中的性能。

🎯 应用场景

该研究成果可应用于商业智能、数据分析、教育等领域。例如,可以帮助用户快速理解和分析图表数据,从而做出更明智的决策。在教育领域,可以辅助学生学习数据分析和可视化技能。未来,该技术有望与自动化报告生成、智能数据探索等应用相结合,进一步提升数据分析的效率和智能化水平。

📄 摘要(原文)

Chart question answering (ChartQA) tasks play a critical role in interpreting and extracting insights from visualization charts. While recent advancements in multimodal large language models (MLLMs) like GPT-4o have shown promise in high-level ChartQA tasks, such as chart captioning, their effectiveness in low-level ChartQA tasks (e.g., identifying correlations) remains underexplored. In this paper, we address this gap by evaluating MLLMs on low-level ChartQA using a newly curated dataset, ChartInsights, which consists of 22,347 (chart, task, query, answer) covering 10 data analysis tasks across 7 chart types. We systematically evaluate 19 advanced MLLMs, including 12 open-source and 7 closed-source models. The average accuracy rate across these models is 39.8%, with GPT-4o achieving the highest accuracy at 69.17%. To further explore the limitations of MLLMs in low-level ChartQA, we conduct experiments that alter visual elements of charts (e.g., changing color schemes, adding image noise) to assess their impact on the task effectiveness. Furthermore, we propose a new textual prompt strategy, Chain-of-Charts, tailored for low-level ChartQA tasks, which boosts performance by 14.41%, achieving an accuracy of 83.58%. Finally, incorporating a visual prompt strategy that directs attention to relevant visual elements further improves accuracy to 84.32%.