HiSciBench: A Hierarchical Multi-disciplinary Benchmark for Scientific Intelligence from Reading to Discovery

📄 arXiv: 2512.22899v1 📥 PDF

作者: Yaping Zhang, Qixuan Zhang, Xingquan Zhang, Zhiyuan Chen, Wenwen Zhuang, Yupu Liang, Lu Xiang, Yang Zhao, Jiajun Zhang, Yu Zhou, Chengqing Zong

分类: cs.AI, cs.CV

发布日期: 2025-12-28


💡 一句话要点

HiSciBench:一个用于评估科学智能的层次化多学科基准测试,涵盖阅读到发现

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 科学智能 基准测试 大型语言模型 多模态学习 科学发现 层次化评估 跨学科研究

📋 核心要点

  1. 现有科学智能基准测试过于零散,无法全面评估模型在科学研究中从阅读到发现的完整流程。
  2. HiSciBench构建了一个层次化的多学科基准,包含五个层级,覆盖科学研究的完整工作流程,并支持多模态输入。
  3. 实验结果表明,现有模型在基础科学素养任务上表现较好,但在更高层次的科学发现任务中性能显著下降。

📝 摘要(中文)

大型语言模型(LLMs)和多模态基础模型的快速发展激发了人们对其在科学研究中潜力的日益关注。然而,科学智能涵盖了从理解基础知识到进行创造性发现的广泛能力,而现有的基准测试仍然是分散的。大多数基准测试侧重于狭窄的任务,未能反映真实科学探究的层次性和多学科性。我们推出了HiSciBench,这是一个层次化的基准测试,旨在评估基础模型在五个层面的能力,这些层面反映了完整的科学工作流程:科学素养(L1)、文献解析(L2)、基于文献的问答(L3)、文献综述生成(L4)和科学发现(L5)。HiSciBench包含8735个精心策划的实例,涵盖数学、物理、化学、生物学、地理学和天文学六个主要科学学科,并支持包括文本、公式、图表在内的多模态输入以及跨语言评估。与评估孤立能力的先前基准测试不同,HiSciBench提供了一个集成的、依赖感知的框架,可以详细诊断模型在科学推理不同阶段的能力。对包括GPT-5、DeepSeek-R1和多个多模态系统在内的领先模型的全面评估显示出巨大的性能差距:虽然模型在基本素养任务上达到了高达69%的准确率,但在发现层面的挑战中,性能急剧下降至25%。HiSciBench为评估科学智能建立了一个新标准,并为开发不仅更强大而且更可靠的模型提供了可操作的见解。该基准测试将公开发布,以促进未来的研究。

🔬 方法详解

问题定义:现有科学智能评估基准存在碎片化的问题,无法全面评估模型在科学研究中从阅读理解到最终发现的完整能力链条。这些基准往往只关注特定任务,忽略了科学研究的层次性和跨学科特性,难以反映真实科研场景的复杂性。

核心思路:HiSciBench的核心思路是构建一个层次化的、多学科的基准测试,模拟科学研究的完整流程。通过五个层级的任务设计,从基础的科学素养到最终的科学发现,全面评估模型在不同阶段的能力。这种层次化的设计能够更细粒度地诊断模型在科学推理过程中的优势和不足。

技术框架:HiSciBench的整体框架包含五个层级:L1(科学素养)、L2(文献解析)、L3(基于文献的问答)、L4(文献综述生成)和L5(科学发现)。每个层级都包含多个任务,涵盖数学、物理、化学、生物学、地理学和天文学六个主要科学学科。基准测试支持多模态输入,包括文本、公式、图表等,并支持跨语言评估。

关键创新:HiSciBench的关键创新在于其层次化的结构和多学科的覆盖范围。与以往的基准测试相比,HiSciBench能够更全面、更细致地评估模型在科学研究中的能力。此外,HiSciBench还考虑了不同任务之间的依赖关系,使得评估结果更具参考价值。

关键设计:HiSciBench在数据构建方面进行了精心的设计,确保每个层级的任务都具有挑战性和代表性。例如,在科学发现层级,需要模型能够根据已有的文献信息,提出新的假设或解释现象。此外,HiSciBench还设计了多种评估指标,以全面衡量模型的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在HiSciBench的评估中,GPT-5和DeepSeek-R1等领先模型在基础科学素养任务(L1)上取得了高达69%的准确率,但在科学发现任务(L5)上的准确率急剧下降至25%。这一结果表明,现有模型在高级科学推理和创造性发现方面仍存在显著差距,HiSciBench能够有效区分模型在不同层级科学任务上的表现。

🎯 应用场景

HiSciBench可用于评估和提升大型语言模型在科学研究领域的应用能力,例如辅助科研人员进行文献综述、假设生成和实验设计。通过不断优化模型在HiSciBench上的表现,有望加速科学发现的进程,并推动人工智能在科学领域的更广泛应用。

📄 摘要(原文)

The rapid advancement of large language models (LLMs) and multimodal foundation models has sparked growing interest in their potential for scientific research. However, scientific intelligence encompasses a broad spectrum of abilities ranging from understanding fundamental knowledge to conducting creative discovery, and existing benchmarks remain fragmented. Most focus on narrow tasks and fail to reflect the hierarchical and multi-disciplinary nature of real scientific inquiry. We introduce \textbf{HiSciBench}, a hierarchical benchmark designed to evaluate foundation models across five levels that mirror the complete scientific workflow: \textit{Scientific Literacy} (L1), \textit{Literature Parsing} (L2), \textit{Literature-based Question Answering} (L3), \textit{Literature Review Generation} (L4), and \textit{Scientific Discovery} (L5). HiSciBench contains 8,735 carefully curated instances spanning six major scientific disciplines, including mathematics, physics, chemistry, biology, geography, and astronomy, and supports multimodal inputs including text, equations, figures, and tables, as well as cross-lingual evaluation. Unlike prior benchmarks that assess isolated abilities, HiSciBench provides an integrated, dependency-aware framework that enables detailed diagnosis of model capabilities across different stages of scientific reasoning. Comprehensive evaluations of leading models, including GPT-5, DeepSeek-R1, and several multimodal systems, reveal substantial performance gaps: while models achieve up to 69\% accuracy on basic literacy tasks, performance declines sharply to 25\% on discovery-level challenges. HiSciBench establishes a new standard for evaluating scientific Intelligence and offers actionable insights for developing models that are not only more capable but also more reliable. The benchmark will be publicly released to facilitate future research.