ChartMimic: Evaluating LMM's Cross-Modal Reasoning Capability via Chart-to-Code Generation

📄 arXiv: 2406.09961v2 📥 PDF

作者: Cheng Yang, Chufan Shi, Yaxin Liu, Bo Shui, Junjie Wang, Mohan Jing, Linran Xu, Xinyu Zhu, Siheng Li, Yuxiang Zhang, Gongye Liu, Xiaomei Nie, Deng Cai, Yujiu Yang

分类: cs.SE, cs.CL, cs.CV

发布日期: 2024-06-14 (更新: 2025-02-28)

备注: Accepted to ICLR 2025. Data and code are available at https://github.com/ChartMimic/ChartMimic


💡 一句话要点

ChartMimic:通过图表到代码生成评估LMM的跨模态推理能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 图表理解 代码生成 跨模态推理 基准测试

📋 核心要点

  1. 现有代码生成基准测试缺乏对LMM跨模态推理能力的有效评估,尤其是在图表理解和代码生成结合的复杂场景下。
  2. ChartMimic通过构建包含图表、指令和代码三元组的数据集,并设计多层次评估指标,来全面评估LMM的视觉理解、代码生成和跨模态推理能力。
  3. 实验结果表明,即使是GPT-4o等先进模型在ChartMimic上也面临挑战,表明LMM在图表理解和代码生成方面仍有很大的提升空间。

📝 摘要(中文)

本文提出了一个新的基准测试ChartMimic,旨在评估大型多模态模型(LMM)在视觉引导下的代码生成能力。ChartMimic以信息密集的视觉图表和文本指令作为输入,要求LMM生成用于图表渲染的相应代码。ChartMimic包含4800个由人工整理的(图表、指令、代码)三元组,这些三元组代表了在各个领域(例如,物理学、计算机科学、经济学等)的科学论文中发现的真实图表使用案例。这些图表涵盖18种常规类型和4种高级类型,细分为201个子类别。此外,我们提出了多层次的评估指标,以对输出代码和渲染的图表进行自动和全面的评估。与现有的代码生成基准测试不同,ChartMimic侧重于评估LMM协调视觉理解、代码生成和跨模态推理等认知能力的能力。对3个专有模型和14个开源模型的评估突显了ChartMimic带来的巨大挑战。即使是先进的GPT-4o和InternVL2-Llama3-76B,在直接模仿和定制模仿任务中的平均得分也仅为82.2和61.6,表明仍有很大的改进空间。我们预计ChartMimic将激发LMM的发展,从而推动通用人工智能的追求。

🔬 方法详解

问题定义:论文旨在解决大型多模态模型(LMMs)在理解图表并生成相应代码方面的能力评估问题。现有代码生成基准测试通常不侧重于视觉信息,或者缺乏对跨模态推理能力的细致评估,无法充分反映LMM在处理复杂视觉信息时的真实性能。因此,需要一个更具挑战性的基准来推动LMM在图表理解和代码生成方面的研究。

核心思路:论文的核心思路是构建一个高质量的图表到代码生成数据集,并设计相应的评估指标,以全面评估LMM的跨模态推理能力。通过提供包含图表、文本指令和代码三元组的数据,并要求LMM根据图表和指令生成代码,可以有效地测试LMM的视觉理解、代码生成和跨模态推理能力。这种方法能够更真实地反映LMM在实际应用中的性能。

技术框架:ChartMimic基准测试包含以下几个主要组成部分:1) 数据集构建:收集并整理包含图表、文本指令和代码三元组的数据,涵盖多种图表类型和领域。2) 任务定义:定义直接模仿和定制模仿两种任务,前者要求LMM直接生成与给定图表对应的代码,后者要求LMM根据指令修改图表。3) 评估指标:设计多层次的评估指标,包括代码执行结果的相似度、图表渲染结果的相似度等,以全面评估LMM的性能。

关键创新:ChartMimic的关键创新在于其数据集的真实性和多样性,以及评估指标的全面性。数据集中的图表来自真实的科学论文,涵盖多种类型和领域,更贴近实际应用场景。评估指标不仅考虑了代码的正确性,还考虑了图表渲染结果的相似度,能够更全面地评估LMM的性能。此外,定制模仿任务的设计也增加了评估的难度,能够更好地区分不同LMM的性能。

关键设计:在数据集构建方面,论文采用了人工整理的方式,确保数据的质量和多样性。在评估指标方面,论文采用了多层次的评估方法,包括代码执行结果的相似度、图表渲染结果的相似度等。具体的评估指标包括BLEU、CodeBLEU等用于评估代码相似度,以及基于图像相似度的指标用于评估图表渲染结果的相似度。此外,论文还设计了定制模仿任务,要求LMM根据指令修改图表,增加了评估的难度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,即使是GPT-4o和InternVL2-Llama3-76B等先进模型在ChartMimic上也面临挑战,在直接模仿和定制模仿任务中的平均得分分别为82.2和61.6。这表明LMM在图表理解和代码生成方面仍有很大的提升空间,ChartMimic能够有效地评估和推动LMM在该领域的发展。

🎯 应用场景

ChartMimic的研究成果可应用于提升LMM在数据可视化、科学研究、商业分析等领域的应用能力。通过提高LMM对图表的理解和代码生成能力,可以实现更智能的数据分析和可视化工具,帮助用户更高效地理解和利用数据。未来,该研究还可以推动LMM在自动化报告生成、智能数据探索等方面的应用。

📄 摘要(原文)

We introduce a new benchmark, ChartMimic, aimed at assessing the visually-grounded code generation capabilities of large multimodal models (LMMs). ChartMimic utilizes information-intensive visual charts and textual instructions as inputs, requiring LMMs to generate the corresponding code for chart rendering. ChartMimic includes 4,800 human-curated (figure, instruction, code) triplets, which represent the authentic chart use cases found in scientific papers across various domains (e.g., Physics, Computer Science, Economics, etc). These charts span 18 regular types and 4 advanced types, diversifying into 201 subcategories. Furthermore, we propose multi-level evaluation metrics to provide an automatic and thorough assessment of the output code and the rendered charts. Unlike existing code generation benchmarks, ChartMimic places emphasis on evaluating LMMs' capacity to harmonize a blend of cognitive capabilities, encompassing visual understanding, code generation, and cross-modal reasoning. The evaluation of $3$ proprietary models and 14 open-weight models highlights the substantial challenges posed by ChartMimic. Even the advanced GPT-4o, InternVL2-Llama3-76B only achieved an average score across Direct Mimic and Customized Mimic tasks of 82.2 and 61.6, respectively, indicating significant room for improvement. We anticipate that ChartMimic will inspire the development of LMMs, advancing the pursuit of artificial general intelligence.