CSVQA: A Chinese Multimodal Benchmark for Evaluating STEM Reasoning Capabilities of VLMs
作者: Ai Jian, Weijie Qiu, Xiaokun Wang, Peiyu Wang, Yunzhuo Hao, Jiangbo Pei, Yichen Wei, Yi Peng, Xuchen Song
分类: cs.CV, cs.AI
发布日期: 2025-05-30 (更新: 2025-06-17)
备注: 36 pages
🔗 代码/项目: HUGGINGFACE
💡 一句话要点
提出CSVQA:一个用于评估VLM在STEM领域推理能力的中文多模态基准
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉语言模型 科学推理 多模态学习 基准测试 STEM教育
📋 核心要点
- 现有VLM在科学推理方面能力不足,缺乏针对STEM领域知识和视觉证据分析的有效评估基准。
- CSVQA基准通过构建包含领域知识和视觉证据的问答对,诊断性地评估VLM的科学推理能力。
- 实验结果表明,现有VLM在CSVQA基准上表现不佳,即使是顶尖模型准确率也低于50%,亟需提升。
📝 摘要(中文)
视觉-语言模型(VLM)在多模态理解方面取得了显著进展,但其科学推理能力仍未得到充分评估。现有的多模态基准主要评估通用图像理解或文本驱动的推理,缺乏真实的科学背景,而这些背景需要领域特定知识与视觉证据分析的整合。为了填补这一空白,我们提出了CSVQA,这是一个专门为评估通过领域相关的视觉问答进行科学推理的诊断性多模态基准。我们的基准包含1,378个精心构建的问答对,涵盖不同的STEM学科,每个问答对都需要领域知识、视觉证据的整合和高阶推理。与之前的多模态基准相比,CSVQA更加强调真实世界的科学内容和复杂的推理。我们还提出了一个严格的评估协议,以系统地评估模型预测是否得到基于精心策划的解释的有效中间推理步骤的支持。我们对该基准上15个VLM的全面评估揭示了显著的性能差异,即使是排名最高的专有模型也仅达到49.6%的准确率。这一经验证据强调了VLM在科学推理能力方面亟待提升。我们的CSVQA已在https://huggingface.co/datasets/Skywork/CSVQA发布。
🔬 方法详解
问题定义:现有视觉-语言模型(VLM)在通用图像理解和文本推理方面取得了进展,但在科学领域的推理能力仍然不足。现有的多模态基准测试主要集中在通用场景,缺乏对领域知识和视觉证据分析相结合的科学推理能力的评估。因此,需要一个专门的基准来诊断和评估VLM在STEM领域的推理能力。
核心思路:CSVQA的核心思路是构建一个高质量的多模态数据集,该数据集包含需要领域知识、视觉证据和高阶推理的科学问题。通过评估VLM在回答这些问题时的表现,可以更准确地评估其科学推理能力。此外,还提出了一个严格的评估协议,以验证模型预测是否基于有效的中间推理步骤。
技术框架:CSVQA基准包含1378个问答对,涵盖不同的STEM学科。每个问题都与一个或多个视觉证据相关联,例如图表、图像或表格。问题需要领域知识、视觉证据的整合和高阶推理才能回答。评估协议包括评估模型预测的准确性,以及验证模型是否提供了有效的中间推理步骤来支持其预测。
关键创新:CSVQA的关键创新在于其专注于科学推理能力,并提供了一个高质量的多模态数据集,该数据集需要领域知识和视觉证据分析。此外,提出的严格评估协议可以更准确地评估模型的推理能力。与现有基准相比,CSVQA更强调真实世界的科学内容和复杂的推理。
关键设计:CSVQA数据集的构建过程包括以下步骤:1) 从不同的STEM学科中选择问题;2) 为每个问题收集相关的视觉证据;3) 编写需要领域知识、视觉证据和高阶推理的答案;4) 验证问题和答案的准确性。评估协议包括以下步骤:1) 评估模型预测的准确性;2) 验证模型是否提供了有效的中间推理步骤来支持其预测;3) 使用人工评估员来评估推理步骤的有效性。
🖼️ 关键图片
📊 实验亮点
在CSVQA基准上对15个VLM进行了评估,结果显示即使是排名最高的专有模型也仅达到49.6%的准确率。这表明现有VLM在科学推理能力方面仍有很大的提升空间。该基准的发布为研究人员提供了一个评估和改进VLM科学推理能力的平台。
🎯 应用场景
CSVQA基准可用于评估和改进VLM在科学、技术、工程和数学(STEM)领域的推理能力。它可以应用于教育领域,例如开发智能辅导系统,帮助学生理解科学概念。此外,它还可以用于科学研究领域,例如帮助科学家分析实验数据和发现新的科学规律。该基准的发布将促进VLM在科学领域的更广泛应用。
📄 摘要(原文)
Vision-Language Models (VLMs) have demonstrated remarkable progress in multimodal understanding, yet their capabilities for scientific reasoning remain inadequately assessed. Current multimodal benchmarks predominantly evaluate generic image comprehension or text-driven reasoning, lacking authentic scientific contexts that require domain-specific knowledge integration with visual evidence analysis. To fill this gap, we present CSVQA, a diagnostic multimodal benchmark specifically designed for evaluating scientific reasoning through domain-grounded visual question answering. Our benchmark features 1,378 carefully constructed question-answer pairs spanning diverse STEM disciplines, each demanding domain knowledge, integration of visual evidence, and higher-order reasoning. Compared to prior multimodal benchmarks, CSVQA places greater emphasis on real-world scientific content and complex reasoning. We additionally propose a rigorous evaluation protocol to systematically assess whether model predictions are substantiated by valid intermediate reasoning steps based on curated explanations. Our comprehensive evaluation of 15 VLMs on this benchmark reveals notable performance disparities, as even the top-ranked proprietary model attains only 49.6% accuracy. This empirical evidence underscores the pressing need for advancing scientific reasoning capabilities in VLMs. Our CSVQA is released at https://huggingface.co/datasets/Skywork/CSVQA