Probing Scientific General Intelligence of LLMs with Scientist-Aligned Workflows

📄 arXiv: 2512.16969v1 📥 PDF

作者: Wanghan Xu, Yuhao Zhou, Yifan Zhou, Qinglong Cao, Shuo Li, Jia Bu, Bo Liu, Yixin Chen, Xuming He, Xiangyu Zhao, Xiang Zhuang, Fengxiang Wang, Zhiwang Zhou, Qiantai Feng, Wenxuan Huang, Jiaqi Wei, Hao Wu, Yuejin Yang, Guangshuai Wang, Sheng Xu, Ziyan Huang, Xinyao Liu, Jiyao Liu, Cheng Tang, Wei Li, Ying Chen, Junzhi Ning, Pengfei Jiang, Chenglong Ma, Ye Du, Changkai Ji, Huihui Xu, Ming Hu, Jiangbin Zheng, Xin Chen, Yucheng Wu, Feifei Jiang, Xi Chen, Xiangru Tang, Yuchen Fu, Yingzhou Lu, Yuanyuan Zhang, Lihao Sun, Chengbo Li, Jinzhe Ma, Wanhao Liu, Yating Liu, Kuo-Cheng Wu, Shengdu Chai, Yizhou Wang, Ouwen Zhangjin, Chen Tang, Shufei Zhang, Wenbo Cao, Junjie Ren, Taoyong Cui, Zhouheng Yao, Juntao Deng, Yijie Sun, Feng Liu, Wangxu Wei, Jingyi Xu, Zhangrui Li, Junchao Gong, Zijie Guo, Zhiyu Yao, Zaoyu Chen, Tianhao Peng, Fangchen Yu, Bo Zhang, Dongzhan Zhou, Shixiang Tang, Jiaheng Liu, Fenghua Ling, Yan Lu, Yuchen Ren, Ben Fei, Zhen Zhao, Xinyu Gu, Rui Su, Xiao-Ming Wu, Weikang Si, Yang Liu, Hao Chen, Xiangchao Yan, Xue Yang, Junchi Yan, Jiamin Wu, Qihao Zheng, Chenhui Li, Zhiqiang Gao, Hao Kong, Junjun He, Mao Su, Tianfan Fu, Peng Ye, Chunfeng Song, Nanqing Dong, Yuqiang Li, Huazhu Fu, Siqi Sun, Lijing Cheng, Jintai Lin, Wanli Ouyang, Bowen Zhou, Wenlong Zhang, Lei Bai

分类: cs.AI, cs.CL, cs.LG

发布日期: 2025-12-18


💡 一句话要点

SGI-Bench:构建基于科学家工作流的科学通用智能评测基准

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 科学通用智能 大语言模型 评测基准 科学家工作流 测试时强化学习

📋 核心要点

  1. 现有科学AI缺乏统一框架来评估其在不同科学领域自主构思、调查和推理的科学通用智能(SGI)。
  2. 论文提出基于实践探究模型(PIM)的SGI定义,并通过四个科学家对齐的任务构建SGI-Bench评测基准。
  3. 实验结果揭示了现有LLM在深度研究、实验执行和推理等方面的不足,并提出了测试时强化学习(TTRL)方法。

📝 摘要(中文)

本文旨在填补科学通用智能(SGI)评估框架的空白,SGI指的是自主地在科学领域中构思、调查和推理的能力。论文基于实践探究模型(PIM:审议、构思、行动、感知)提出了SGI的定义,并通过四个与科学家对齐的任务来实现:深度研究、想法生成、干/湿实验和实验推理。SGI-Bench包含1000多个由专家策划的、跨学科的样本,灵感来自《科学》杂志的125个重大问题,从而能够系统地评估最先进的LLM。结果表明存在差距:尽管步进级别对齐,但在深度研究中的精确匹配率较低(10-20%);想法缺乏可行性和细节;干实验中代码可执行性高但执行结果准确性低;湿实验协议中的序列保真度低;以及持续存在的多模态比较推理挑战。此外,论文还引入了测试时强化学习(TTRL),它在推理时优化检索增强的新颖性奖励,从而在没有参考答案的情况下提高假设的新颖性。总之,基于PIM的定义、以工作流程为中心的基准和实证见解为真正参与科学发现的AI系统奠定了基础。

🔬 方法详解

问题定义:现有科学AI系统缺乏一个统一的、可操作的框架来评估其科学通用智能(SGI),即在不同科学领域自主进行构思、调查和推理的能力。现有方法难以模拟科学家完整的工作流程,无法有效评估AI在科学发现中的潜力。

核心思路:论文的核心思路是基于实践探究模型(PIM),将科学研究过程分解为审议、构思、行动和感知四个阶段,并以此为基础设计与科学家工作流程对齐的评测任务。通过模拟科学家在实际研究中遇到的问题,更全面地评估AI的SGI能力。

技术框架:SGI-Bench基准包含四个主要任务:1) 深度研究:评估模型检索和整合科学信息的能力;2) 想法生成:评估模型提出新颖且可行的科学假设的能力;3) 干/湿实验:评估模型执行代码和遵循实验协议的能力;4) 实验推理:评估模型基于实验结果进行推理和得出结论的能力。此外,论文还提出了测试时强化学习(TTRL)方法,用于在推理阶段优化检索增强的新颖性奖励。

关键创新:论文的关键创新在于:1) 提出了基于PIM的SGI定义,为评估科学AI提供了一个理论基础;2) 构建了SGI-Bench基准,包含多个与科学家工作流程对齐的任务,更全面地评估AI的SGI能力;3) 提出了TTRL方法,可以在推理阶段提高模型生成假设的新颖性。

关键设计:SGI-Bench中的每个任务都包含多个由专家设计的样本,涵盖不同的科学领域。深度研究任务使用精确匹配率来评估检索结果的准确性。想法生成任务使用可行性和细节程度来评估生成假设的质量。干/湿实验任务使用代码可执行性和结果准确性来评估实验执行能力。TTRL方法使用检索增强的新颖性奖励来优化模型在推理阶段的输出。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,现有LLM在SGI-Bench上的表现仍有较大提升空间。深度研究任务的精确匹配率仅为10-20%,表明模型在整合科学信息方面存在不足。TTRL方法能够有效提高模型生成假设的新颖性,但仍需进一步提升可行性和细节程度。这些结果为未来科学AI的研究方向提供了重要参考。

🎯 应用场景

该研究成果可应用于开发更智能的科学AI助手,辅助科学家进行文献检索、假设生成、实验设计和数据分析等工作。通过不断提升AI的SGI能力,有望加速科学发现的进程,解决人类面临的重大挑战,例如疾病治疗、能源开发和环境保护。

📄 摘要(原文)

Despite advances in scientific AI, a coherent framework for Scientific General Intelligence (SGI)-the ability to autonomously conceive, investigate, and reason across scientific domains-remains lacking. We present an operational SGI definition grounded in the Practical Inquiry Model (PIM: Deliberation, Conception, Action, Perception) and operationalize it via four scientist-aligned tasks: deep research, idea generation, dry/wet experiments, and experimental reasoning. SGI-Bench comprises over 1,000 expert-curated, cross-disciplinary samples inspired by Science's 125 Big Questions, enabling systematic evaluation of state-of-the-art LLMs. Results reveal gaps: low exact match (10--20%) in deep research despite step-level alignment; ideas lacking feasibility and detail; high code executability but low execution result accuracy in dry experiments; low sequence fidelity in wet protocols; and persistent multimodal comparative-reasoning challenges. We further introduce Test-Time Reinforcement Learning (TTRL), which optimizes retrieval-augmented novelty rewards at inference, enhancing hypothesis novelty without reference answer. Together, our PIM-grounded definition, workflow-centric benchmark, and empirical insights establish a foundation for AI systems that genuinely participate in scientific discovery.