SciVQR: A Multidisciplinary Multimodal Benchmark for Advanced Scientific Reasoning Evaluation

📄 arXiv: 2605.10187v1 📥 PDF

作者: Longteng Guo, Xuanxu Lin, Dongze Hao, Tongtian Yue, Pengkang Huo, Jiatong Ma, Yuchen Liu, Jing Liu

分类: cs.CV

发布日期: 2026-05-11

🔗 代码/项目: GITHUB


💡 一句话要点

提出SciVQR多学科多模态基准,旨在全面评估大模型在复杂科学推理中的表现

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大模型 科学推理 基准测试 多步推理 视觉问答 跨学科评估

📋 核心要点

  1. 现有基准难以评估多模态大模型在科学领域中复杂的、可追溯的多步推理过程,缺乏对深层逻辑的考察。
  2. 构建了SciVQR基准,涵盖54个科学子领域,通过整合专业视觉素材与多步推理任务,全面测试模型的科学智能。
  3. 实验表明当前主流MLLM在处理复杂科学推理时表现受限,该基准为提升模型跨学科知识整合与逻辑推理能力提供了关键评估指标。

📝 摘要(中文)

科学推理是人类智能的核心,要求整合多模态输入、领域专业知识及跨学科的多步推理能力。现有的多模态大语言模型(MLLM)基准往往难以捕捉严谨评估所需的推理过程复杂性与可追溯性。为填补这一空白,我们推出了SciVQR,这是一个涵盖数学、物理、化学、地理、天文和生物学等54个子领域的多模态基准。SciVQR包含方程、图表和示意图等领域特定视觉信息,挑战模型将视觉理解与逻辑推理相结合。任务从基础事实检索到复杂的多步推理不等,其中46%的题目包含专家编写的详细解答。SciVQR不仅评估最终答案,还深入考察推理过程,为理解模型如何得出结论提供了洞察。对领先的闭源与开源MLLM的评估显示,模型在处理复杂多模态推理任务时存在显著局限,凸显了提升多步推理能力及跨学科知识整合对于迈向真正科学智能的重要性。

🔬 方法详解

问题定义:现有MLLM评估基准多侧重于通用视觉问答,缺乏对科学领域专业图表、方程及复杂多步逻辑推理的深度覆盖,导致模型在科学任务中表现出“幻觉”或推理链条断裂,无法满足科研场景的严谨性需求。

核心思路:通过构建一个大规模、多学科、多模态的科学推理数据集,将视觉感知与符号逻辑推理紧密耦合。设计不仅关注结果准确性,更强调推理过程的逻辑一致性与可解释性,以模拟人类科学家的思维过程。

技术框架:SciVQR采用分层评估架构,涵盖从基础事实识别到复杂多步推理的阶梯式任务。数据集整合了来自数学、物理、化学等领域的真实科学图表与文本,并配套专家级推理路径标注,支持对模型思维链(CoT)的定量与定性分析。

关键创新:引入了“过程导向”的评估机制,不仅对比最终答案,还通过专家标注的推理步骤对模型的中间推理过程进行验证,有效识别模型在推理链条中的逻辑缺陷。

关键设计:数据集包含54个细分领域,视觉模态涵盖了高度抽象的科学示意图与数据图表;46%的样本配备了详细的专家解答,为评估模型推理的严谨性提供了高质量的Ground Truth参考。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验评估了包括GPT-4V、Claude 3等在内的多种前沿MLLM。结果显示,尽管模型在基础识别任务上表现尚可,但在涉及复杂多步推理和跨学科知识整合的科学任务中,性能出现显著下降。该基准揭示了当前模型在处理科学图表逻辑关联时的脆弱性,为未来提升模型科学智能提供了明确的优化方向。

🎯 应用场景

该研究可广泛应用于科学研究辅助、智能教育系统及自动化实验室分析。通过提升模型在复杂图表解析与多步逻辑推理方面的能力,SciVQR有助于开发能够辅助科研人员进行文献综述、实验数据分析及科学假设验证的智能助手,推动人工智能在基础科学领域的深度应用。

📄 摘要(原文)

Scientific reasoning is a key aspect of human intelligence, requiring the integration of multimodal inputs, domain expertise, and multi-step inference across various subjects. Existing benchmarks for multimodal large language models (MLLMs) often fail to capture the complexity and traceability of reasoning processes necessary for rigorous evaluation. To fill this gap, we introduce SciVQR, a multimodal benchmark covering 54 subfields in mathematics, physics, chemistry, geography, astronomy, and biology. SciVQR includes domain-specific visuals, such as equations, charts, and diagrams, and challenges models to combine visual comprehension with reasoning. The tasks range from basic factual recall to complex, multi-step inferences, with 46% including expert-authored solutions. SciVQR not only evaluates final answers but also examines the reasoning process, providing insights into how models reach their conclusions. Our evaluation of leading MLLMs, including both proprietary and open-source models, reveals significant limitations in handling complex multimodal reasoning tasks, underscoring the need for improved multi-step reasoning and better integration of interdisciplinary knowledge in advancing MLLMs toward true scientific intelligence. The dataset and evaluation code are publicly available at https://github.com/CASIA-IVA-Lab/SciVQR.