Chart Question Answering from Real-World Analytical Narratives
作者: Maeve Hutchinson, Radu Jianu, Aidan Slingsby, Jo Wood, Pranava Madhyastha
分类: cs.CL
发布日期: 2025-07-02
备注: This paper has been accepted to the ACL Student Research Workshop (SRW) 2025
💡 一句话要点
提出基于真实分析叙事的图表问答数据集,揭示现有模型在生态有效场景下的性能差距
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 图表问答 多模态学习 自然语言处理 可视化分析 数据集构建
📋 核心要点
- 现有图表问答数据集缺乏真实分析场景,难以反映实际应用中的推理流程。
- 构建基于可视化笔记本的CQA数据集,包含多视角图表和分析叙事问题,更贴近真实场景。
- 实验表明,即使是GPT-4.1等先进模型,在该数据集上的性能也存在显著差距,准确率仅为69.3%。
📝 摘要(中文)
本文提出了一个新的图表问答(CQA)数据集,该数据集构建自可视化笔记本。该数据集的特点是真实世界、多视角的图表,并配有基于分析叙事的自然语言问题。与之前的基准不同,我们的数据反映了生态有效的推理工作流程。对最先进的多模态大型语言模型进行基准测试显示出显著的性能差距,其中GPT-4.1的准确率达到69.3%,突显了这种更真实的CQA环境所带来的挑战。
🔬 方法详解
问题定义:论文旨在解决现有图表问答(CQA)数据集不够真实,无法反映实际分析场景中用户与图表交互的推理过程的问题。现有CQA数据集通常是人工构建或基于简单模板生成,缺乏真实世界分析叙事的复杂性和多视角性,导致模型在这些数据集上表现良好,但在实际应用中性能下降。
核心思路:论文的核心思路是构建一个更贴近真实世界分析场景的CQA数据集。通过从可视化笔记本中提取图表和相关的自然语言问题,可以捕捉到用户在实际分析过程中如何使用图表进行推理和决策。这种方法能够更好地反映生态有效的推理工作流程。
技术框架:该论文主要关注数据集的构建,并没有提出新的模型架构。数据集构建流程包括:1)收集可视化笔记本;2)提取图表和相关的自然语言问题;3)对数据进行清洗和标注。重点在于保证数据的真实性和多样性,使其能够反映真实世界分析叙事的复杂性。
关键创新:该论文的关键创新在于数据集的构建方法。与以往的CQA数据集不同,该数据集不是人工构建或基于简单模板生成,而是从真实的可视化笔记本中提取。这种方法能够更好地反映用户在实际分析过程中如何使用图表进行推理和决策,从而构建一个更具挑战性和代表性的CQA基准。
关键设计:数据集的关键设计在于选择可视化笔记本作为数据来源,并确保提取的图表和问题能够反映真实的分析叙事。具体的技术细节包括如何从笔记本中提取图表、如何将自然语言问题与图表关联起来,以及如何对数据进行清洗和标注,以保证数据的质量和可用性。论文中可能包含关于数据统计分布的细节,例如图表类型、问题类型、叙事长度等,但摘要中未明确提及。
🖼️ 关键图片
📊 实验亮点
实验结果表明,即使是GPT-4.1等最先进的多模态大语言模型,在该数据集上的准确率也仅为69.3%。这表明现有模型在处理真实世界分析叙事中的图表问答任务时仍存在显著差距,突显了该数据集的挑战性和价值,为未来的研究提供了明确的方向。
🎯 应用场景
该研究成果可应用于开发更智能的图表问答系统,帮助用户更好地理解和分析数据。例如,可以应用于商业智能、科学研究、金融分析等领域,提升数据分析的效率和质量。未来,该数据集可以促进多模态大语言模型在真实世界数据分析场景下的应用。
📄 摘要(原文)
We present a new dataset for chart question answering (CQA) constructed from visualization notebooks. The dataset features real-world, multi-view charts paired with natural language questions grounded in analytical narratives. Unlike prior benchmarks, our data reflects ecologically valid reasoning workflows. Benchmarking state-of-the-art multimodal large language models reveals a significant performance gap, with GPT-4.1 achieving an accuracy of 69.3%, underscoring the challenges posed by this more authentic CQA setting.