DomainCQA: Crafting Knowledge-Intensive QA from Domain-Specific Charts

📄 arXiv: 2503.19498v5 📥 PDF

作者: Yujing Lu, Ling Zhong, Jing Yang, Weiming Li, Peng Wei, Yongheng Wang, Manni Duan, Qing Zhang

分类: cs.CL

发布日期: 2025-03-25 (更新: 2025-11-14)

备注: 83 pages, 59 figures


💡 一句话要点

提出DomainCQA框架,用于构建领域知识密集型图表问答基准

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 图表问答 多模态学习 领域知识 知识密集型 基准测试

📋 核心要点

  1. 现有图表问答基准侧重于表面解析,缺乏对深层领域知识和科学推理能力的考察。
  2. DomainCQA框架通过复杂性感知的图表选择、多层QA生成和专家验证,构建领域知识密集型基准。
  3. AstroChart基准揭示了现有MLLM在细粒度感知、数值推理和领域知识整合方面的不足,微调后性能显著提升。

📝 摘要(中文)

图表问答(CQA)旨在评估多模态大型语言模型(MLLM)在图表数据上的视觉理解和推理能力。然而,现有的基准测试主要集中于表面解析,例如读取标签和图例,而忽略了更深层次的科学推理。本文提出了DomainCQA,一个用于构建领域特定CQA基准的框架,强调视觉理解和知识密集型推理。它集成了复杂性感知的图表选择、多层QA生成和专家验证。应用于天文学领域,DomainCQA产生了AstroChart,一个包含1690个QA对和482个图表的基准,揭示了21个MLLM在细粒度感知、数值推理和领域知识整合方面的持续弱点。在AstroChart上进行微调可以提高基础和高级任务的性能。在生物化学、经济学、医学和社会科学领域的初步QA集进一步证明了DomainCQA的通用性。总而言之,我们的结果表明DomainCQA是一个用于构建和增强领域特定图表推理基准的统一流程。

🔬 方法详解

问题定义:现有图表问答(CQA)基准主要测试模型对图表表面信息的理解,例如读取坐标轴标签、图例等,而忽略了对图表中蕴含的深层领域知识的理解和推理能力。这使得模型难以应用于需要专业知识的实际场景,例如科学研究、数据分析等。现有方法的痛点在于缺乏对领域知识的有效利用和推理能力的评估。

核心思路:DomainCQA的核心思路是构建一个领域特定的、知识密集型的图表问答基准,该基准不仅需要模型具备视觉理解能力,还需要具备领域知识和推理能力。通过这种方式,可以更全面地评估模型在实际应用中的表现,并促进模型在领域知识方面的学习。

技术框架:DomainCQA框架包含三个主要阶段:1) 复杂性感知的图表选择:根据图表的复杂程度和领域知识含量选择合适的图表;2) 多层QA生成:生成不同难度的问答对,包括基础的视觉理解问题和需要领域知识推理的问题;3) 专家验证:由领域专家对生成的问答对进行验证,确保其准确性和合理性。整个流程旨在自动化地生成高质量的领域特定CQA数据集。

关键创新:DomainCQA的关键创新在于其自动化构建领域知识密集型图表问答基准的能力。它通过复杂性感知的图表选择和多层QA生成,有效地模拟了实际应用场景中对模型的要求。与现有方法相比,DomainCQA更加注重领域知识的整合和推理能力的评估。

关键设计:在复杂性感知的图表选择阶段,使用了多种指标来衡量图表的复杂程度,例如图表中元素的数量、图表的类型等。在多层QA生成阶段,使用了多种生成策略,例如基于模板的生成、基于规则的生成等。在专家验证阶段,采用了多轮迭代的方式,确保问答对的质量。具体参数设置和损失函数等细节在论文中未详细说明,属于未知内容。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在天文学领域构建的AstroChart基准测试中,21个MLLM在细粒度感知、数值推理和领域知识整合方面表现出明显不足。通过在AstroChart上进行微调,模型在基础和高级任务上的性能均得到显著提升,验证了DomainCQA框架的有效性。

🎯 应用场景

DomainCQA框架可应用于构建各种领域(如生物化学、经济学、医学和社会科学)的知识密集型图表问答基准,促进多模态大语言模型在特定领域的应用。该研究有助于提升模型在科学研究、数据分析等领域的智能化水平,具有重要的实际应用价值和未来发展潜力。

📄 摘要(原文)

Chart Question Answering (CQA) evaluates Multimodal Large Language Models (MLLMs) on visual understanding and reasoning over chart data. However, existing benchmarks mostly test surface-level parsing, such as reading labels and legends, while overlooking deeper scientific reasoning. We propose DomainCQA, a framework for constructing domain-specific CQA benchmarks that emphasize both visual comprehension and knowledge-intensive reasoning. It integrates complexity-aware chart selection, multitier QA generation, and expert validation. Applied to astronomy, DomainCQA yields AstroChart, a benchmark of 1,690 QA pairs over 482 charts, exposing persistent weaknesses in fine-grained perception, numerical reasoning, and domain knowledge integration across 21 MLLMs. Fine-tuning on AstroChart improves performance across fundamental and advanced tasks. Pilot QA sets in biochemistry, economics, medicine, and social science further demonstrate DomainCQA's generality. Together, our results establish DomainCQA as a unified pipeline for constructing and augmenting domain-specific chart reasoning benchmarks.