ScienceAgentBench: Toward Rigorous Assessment of Language Agents for Data-Driven Scientific Discovery

📄 arXiv: 2410.05080v3 📥 PDF

作者: Ziru Chen, Shijie Chen, Yuting Ning, Qianheng Zhang, Boshi Wang, Botao Yu, Yifei Li, Zeyi Liao, Chen Wei, Zitong Lu, Vishal Dey, Mingyi Xue, Frazier N. Baker, Benjamin Burns, Daniel Adu-Ampratwum, Xuhui Huang, Xia Ning, Song Gao, Yu Su, Huan Sun

分类: cs.CL, cs.AI, cs.LG

发布日期: 2024-10-07 (更新: 2025-03-31)

备注: ICLR 2025. 60 pages


💡 一句话要点

ScienceAgentBench:面向数据驱动科学发现的语言智能体严格评估基准

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 语言智能体 科学发现 基准测试 数据驱动 代码生成

📋 核心要点

  1. 现有方法难以对语言智能体在数据驱动科学发现中的能力进行全面、严格的评估。
  2. ScienceAgentBench通过提取真实科研任务,并将其转化为可执行的Python程序,实现了对智能体的自动化评估。
  3. 实验结果表明,即使是性能最佳的智能体,在独立解决科学任务方面仍存在显著局限性,揭示了当前技术的不足。

📝 摘要(中文)

大型语言模型(LLMs)的进步激发了人们对开发基于LLM的语言智能体以实现端到端科学发现自动化的兴趣,同时也引发了对其真实能力的兴奋和怀疑。本文呼吁在对端到端自动化做出大胆声明之前,对智能体在科学工作流程中的各个任务进行严格评估。为此,我们提出了ScienceAgentBench,这是一个用于评估数据驱动科学发现的语言智能体的新基准。为了确保基准的科学真实性和现实相关性,我们从四个学科的44篇同行评审出版物中提取了102个任务,并邀请了9位主题专家对其进行验证。我们将每个任务的目标输出统一为独立的Python程序文件,并采用一系列评估指标来检查生成的程序、执行结果和成本。每个任务都经过注释者和主题专家的多轮手动验证,以确保其注释质量和科学合理性。我们还提出了两种有效的策略来缓解数据污染问题。使用ScienceAgentBench,我们评估了五个开源和专有LLM,每个LLM具有三个框架:直接提示、OpenHands CodeAct和自调试。在每个任务三次尝试的情况下,性能最佳的智能体只能独立解决32.4%的任务,而借助专家提供的知识则可以解决34.3%的任务。此外,我们评估了使用直接提示和自调试的OpenAI o1-preview,可以将性能提高到42.2%,这证明了增加推理时计算的有效性,但成本是其他LLM的10倍以上。尽管如此,我们的结果强调了当前语言智能体在为数据驱动发现生成代码方面的局限性,更不用说科学研究的端到端自动化了。

🔬 方法详解

问题定义:当前缺乏一个专门用于评估语言智能体在数据驱动科学发现中表现的基准。现有方法要么不够真实,无法反映实际科研任务的复杂性,要么评估指标不够全面,无法准确衡量智能体的能力。此外,数据污染问题也可能导致评估结果失真。

核心思路:ScienceAgentBench的核心思路是构建一个科学、真实、可重复且易于评估的基准,用于衡量语言智能体在数据驱动科学发现中的能力。通过从已发表的科学论文中提取任务,并将其转化为可执行的Python程序,可以确保基准的科学性和真实性。

技术框架:ScienceAgentBench的整体框架包括以下几个主要阶段:1) 任务提取:从科学论文中提取具有代表性的数据驱动任务。2) 任务转换:将提取的任务转换为可执行的Python程序。3) 评估指标设计:设计一套全面的评估指标,包括程序正确性、执行结果准确性和计算成本。4) 智能体评估:使用ScienceAgentBench评估各种语言智能体的性能。5) 数据污染缓解:采用策略来减轻数据污染对评估结果的影响。

关键创新:ScienceAgentBench的关键创新在于其科学性和真实性。通过从已发表的科学论文中提取任务,并由领域专家进行验证,可以确保基准能够反映实际科研任务的复杂性。此外,ScienceAgentBench还提供了一套全面的评估指标,可以更准确地衡量智能体的能力。

关键设计:ScienceAgentBench的关键设计包括:1) 任务选择:选择来自不同科学领域的任务,以确保基准的通用性。2) 程序生成:要求智能体生成完整的Python程序,而不是简单的代码片段,以评估其解决问题的能力。3) 评估指标:采用多种评估指标,包括程序是否可执行、执行结果是否正确、计算成本是否合理等。4) 数据污染缓解:采用两种策略,包括限制训练数据和使用对抗性样本,以减轻数据污染的影响。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

ScienceAgentBench评估了五个开源和专有LLM,结果显示,即使是性能最佳的智能体,在独立解决科学任务方面仍存在显著局限性,只能解决32.4%的任务。使用OpenAI o1-preview并增加推理时计算,可以将性能提高到42.2%,但成本是其他LLM的10倍以上。这些结果表明,当前语言智能体在为数据驱动发现生成代码方面仍有很大的提升空间。

🎯 应用场景

ScienceAgentBench可用于评估和比较不同语言智能体在数据驱动科学发现中的能力,从而推动相关技术的发展。它还可以帮助研究人员识别当前技术的局限性,并指导未来的研究方向。此外,该基准还可以用于训练和优化语言智能体,使其更好地服务于科学研究。

📄 摘要(原文)

The advancements of large language models (LLMs) have piqued growing interest in developing LLM-based language agents to automate scientific discovery end-to-end, which has sparked both excitement and skepticism about their true capabilities. In this work, we call for rigorous assessment of agents on individual tasks in a scientific workflow before making bold claims on end-to-end automation. To this end, we present ScienceAgentBench, a new benchmark for evaluating language agents for data-driven scientific discovery. To ensure the scientific authenticity and real-world relevance of our benchmark, we extract 102 tasks from 44 peer-reviewed publications in four disciplines and engage nine subject matter experts to validate them. We unify the target output for every task to a self-contained Python program file and employ an array of evaluation metrics to examine the generated programs, execution results, and costs. Each task goes through multiple rounds of manual validation by annotators and subject matter experts to ensure its annotation quality and scientific plausibility. We also propose two effective strategies to mitigate data contamination concerns. Using ScienceAgentBench, we evaluate five open-weight and proprietary LLMs, each with three frameworks: direct prompting, OpenHands CodeAct, and self-debug. Given three attempts for each task, the best-performing agent can only solve 32.4% of the tasks independently and 34.3% with expert-provided knowledge. In addition, we evaluate OpenAI o1-preview with direct prompting and self-debug, which can boost the performance to 42.2%, demonstrating the effectiveness of increasing inference-time compute but with more than 10 times the cost of other LLMs. Still, our results underscore the limitations of current language agents in generating code for data-driven discovery, let alone end-to-end automation for scientific research.