DomainCQA: Crafting Knowledge-Intensive QA from Domain-Specific Charts

作者: Yujing Lu, Ling Zhong, Jing Yang, Weiming Li, Peng Wei, Yongheng Wang, Manni Duan, Qing Zhang

分类: cs.CL

发布日期: 2025-03-25 (更新: 2025-11-14)

备注: 83 pages, 59 figures

💡 一句话要点

提出DomainCQA框架，用于构建领域知识密集型图表问答基准

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 图表问答 多模态学习 领域知识 知识密集型 基准测试

📋 核心要点

现有图表问答基准侧重于表面解析，缺乏对深层领域知识和科学推理能力的考察。
DomainCQA框架通过复杂性感知的图表选择、多层QA生成和专家验证，构建领域知识密集型基准。
AstroChart基准揭示了现有MLLM在细粒度感知、数值推理和领域知识整合方面的不足，微调后性能显著提升。

📝 摘要（中文）

图表问答(CQA)旨在评估多模态大型语言模型(MLLM)在图表数据上的视觉理解和推理能力。然而，现有的基准测试主要集中于表面解析，例如读取标签和图例，而忽略了更深层次的科学推理。本文提出了DomainCQA，一个用于构建领域特定CQA基准的框架，强调视觉理解和知识密集型推理。它集成了复杂性感知的图表选择、多层QA生成和专家验证。应用于天文学领域，DomainCQA产生了AstroChart，一个包含1690个QA对和482个图表的基准，揭示了21个MLLM在细粒度感知、数值推理和领域知识整合方面的持续弱点。在AstroChart上进行微调可以提高基础和高级任务的性能。在生物化学、经济学、医学和社会科学领域的初步QA集进一步证明了DomainCQA的通用性。总而言之，我们的结果表明DomainCQA是一个用于构建和增强领域特定图表推理基准的统一流程。

🔬 方法详解

问题定义：现有图表问答（CQA）基准主要测试模型对图表表面信息的理解，例如读取坐标轴标签、图例等，而忽略了对图表中蕴含的深层领域知识的理解和推理能力。这使得模型难以应用于需要专业知识的实际场景，例如科学研究、数据分析等。现有方法的痛点在于缺乏对领域知识的有效利用和推理能力的评估。

核心思路：DomainCQA的核心思路是构建一个领域特定的、知识密集型的图表问答基准，该基准不仅需要模型具备视觉理解能力，还需要具备领域知识和推理能力。通过这种方式，可以更全面地评估模型在实际应用中的表现，并促进模型在领域知识方面的学习。

技术框架：DomainCQA框架包含三个主要阶段：1) 复杂性感知的图表选择：根据图表的复杂程度和领域知识含量选择合适的图表；2) 多层QA生成：生成不同难度的问答对，包括基础的视觉理解问题和需要领域知识推理的问题；3) 专家验证：由领域专家对生成的问答对进行验证，确保其准确性和合理性。整个流程旨在自动化地生成高质量的领域特定CQA数据集。

关键创新：DomainCQA的关键创新在于其自动化构建领域知识密集型图表问答基准的能力。它通过复杂性感知的图表选择和多层QA生成，有效地模拟了实际应用场景中对模型的要求。与现有方法相比，DomainCQA更加注重领域知识的整合和推理能力的评估。

关键设计：在复杂性感知的图表选择阶段，使用了多种指标来衡量图表的复杂程度，例如图表中元素的数量、图表的类型等。在多层QA生成阶段，使用了多种生成策略，例如基于模板的生成、基于规则的生成等。在专家验证阶段，采用了多轮迭代的方式，确保问答对的质量。具体参数设置和损失函数等细节在论文中未详细说明，属于未知内容。

🖼️ 关键图片

📊 实验亮点

在天文学领域构建的AstroChart基准测试中，21个MLLM在细粒度感知、数值推理和领域知识整合方面表现出明显不足。通过在AstroChart上进行微调，模型在基础和高级任务上的性能均得到显著提升，验证了DomainCQA框架的有效性。

🎯 应用场景

DomainCQA框架可应用于构建各种领域（如生物化学、经济学、医学和社会科学）的知识密集型图表问答基准，促进多模态大语言模型在特定领域的应用。该研究有助于提升模型在科学研究、数据分析等领域的智能化水平，具有重要的实际应用价值和未来发展潜力。

📄 摘要（原文）

Chart Question Answering (CQA) evaluates Multimodal Large Language Models (MLLMs) on visual understanding and reasoning over chart data. However, existing benchmarks mostly test surface-level parsing, such as reading labels and legends, while overlooking deeper scientific reasoning. We propose DomainCQA, a framework for constructing domain-specific CQA benchmarks that emphasize both visual comprehension and knowledge-intensive reasoning. It integrates complexity-aware chart selection, multitier QA generation, and expert validation. Applied to astronomy, DomainCQA yields AstroChart, a benchmark of 1,690 QA pairs over 482 charts, exposing persistent weaknesses in fine-grained perception, numerical reasoning, and domain knowledge integration across 21 MLLMs. Fine-tuning on AstroChart improves performance across fundamental and advanced tasks. Pilot QA sets in biochemistry, economics, medicine, and social science further demonstrate DomainCQA's generality. Together, our results establish DomainCQA as a unified pipeline for constructing and augmenting domain-specific chart reasoning benchmarks.

DomainCQA: Crafting Knowledge-Intensive QA from Domain-Specific Charts

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理