Can Coding Agents Reproduce Findings in Computational Materials Science?
作者: Ziyang Huang, Yi Cao, Ali K. Shargh, Jing Luo, Ruidong Mei, Mohd Zaki, Zhan Liu, Wyatt Bunstine, William Jurayj, Somdatta Goswami, Tyrel McQueen, Michael Shields, Jaafar El-Awady, Paulette Clancy, Benjamin Van Durme, Nicholas Andrews, William Walden, Daniel Khashabi
分类: cs.SE, cs.AI, cs.CL
发布日期: 2026-05-01
💡 一句话要点
AutoMat:评估LLM智能体在计算材料科学中重现科研结果能力的基准
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 计算材料科学 大型语言模型 AI智能体 可重复性 基准测试
📋 核心要点
- 现有方法难以评估LLM智能体在计算材料科学中重现科研结果的能力,缺乏专门的基准。
- AutoMat基准通过从真实材料科学论文中提取论断,评估智能体恢复和执行端到端工作流程的能力。
- 实验结果表明,当前LLM智能体在AutoMat上的成功率较低,表明其在复杂科学任务中存在局限性。
📝 摘要(中文)
大型语言模型越来越多地被部署为自主编码智能体,并在软件工程基准测试中取得了显著的性能。然而,这种成功是否能转移到计算科学工作流程中尚不清楚,因为这些任务不仅需要强大的编码能力,还需要驾驭复杂的、特定领域的程序,并在科学主张的背景下解释结果。为了解决这个问题,我们提出了AutoMat,这是一个用于评估基于LLM的智能体重现计算材料科学领域科研结果能力的基准。AutoMat提出了三个相互关联的挑战:恢复不明确的计算程序,驾驭专门的工具链,以及确定结果证据是否支持某个论断。通过与领域专家密切合作,我们从真实的材料科学论文中整理出一组论断,以测试编码智能体是否能够恢复和执行支持(或削弱)这些论断所需的端到端工作流程。然后,我们评估了多个具有代表性的编码智能体设置在多个基础模型上的表现。结果表明,当前基于LLM的智能体在AutoMat上的总体成功率较低,表现最佳的设置的成功率仅为54.1%。错误分析进一步表明,当工作流程必须仅从论文文本中重建时,智能体的表现最差,并且它们失败的主要原因是程序不完整、方法偏差和执行脆弱性。总而言之,这些发现将AutoMat定位为计算科学可重复性的基准,以及诊断人工智能在科学领域中智能体系统当前局限性的工具。
🔬 方法详解
问题定义:论文旨在评估大型语言模型(LLM)作为自主编码智能体,在计算材料科学领域重现已发表科研结果的能力。现有方法缺乏一个专门的基准来评估LLM智能体在处理复杂、领域特定任务时的表现,尤其是在需要理解科学论断并执行相应计算工作流程的情况下。现有方法无法有效衡量智能体在恢复不明确的计算程序、驾驭专业工具链以及判断结果是否支持科学论断方面的能力。
核心思路:论文的核心思路是构建一个名为AutoMat的基准测试,该基准包含从真实材料科学论文中提取的科学论断。通过要求LLM智能体重现支持或反驳这些论断所需的计算工作流程,来评估智能体的能力。这种方法模拟了科学家验证他人研究结果的实际过程,从而更真实地反映了智能体在科学研究中的应用潜力。
技术框架:AutoMat基准测试包含以下主要组成部分:1) 从材料科学论文中提取科学论断;2) 构建与这些论断相关的计算工作流程;3) 设计评估指标来衡量智能体重现工作流程的成功率;4) 选择多个代表性的LLM智能体进行测试。整个流程涉及领域专家对论断和工作流程的验证,以确保基准的可靠性和有效性。
关键创新:AutoMat的关键创新在于其针对计算材料科学领域的可重复性问题,提供了一个专门的评估基准。与通用的软件工程基准不同,AutoMat侧重于评估智能体在理解科学语境、驾驭专业工具链以及判断结果是否支持科学论断方面的能力。此外,AutoMat还提供了一个详细的错误分析,可以帮助研究人员诊断智能体在科学任务中的局限性。
关键设计:AutoMat的关键设计包括:1) 从真实论文中选择具有代表性的科学论断;2) 构建清晰且可执行的计算工作流程,涵盖从数据准备到结果分析的各个阶段;3) 定义明确的成功标准,例如计算结果与论文结果的偏差范围;4) 采用多种评估指标,包括成功率、执行时间以及资源消耗等。
🖼️ 关键图片
📊 实验亮点
实验结果表明,当前最佳的LLM智能体在AutoMat上的成功率仅为54.1%,远低于软件工程基准。错误分析显示,智能体在仅依赖论文文本重建工作流程时表现最差,主要原因是程序不完整、方法偏差和执行脆弱性。这些结果突显了当前LLM智能体在处理复杂科学任务时的局限性,并为未来的研究方向提供了指导。
🎯 应用场景
AutoMat可用于评估和改进AI智能体在计算材料科学及其他科学领域的应用。通过诊断智能体在重现科研结果方面的局限性,可以指导开发更强大的AI工具,加速科学发现过程,并提高科研结果的可信度。该基准还有助于推动AI与科学领域的交叉研究,促进AI技术在解决实际科学问题中的应用。
📄 摘要(原文)
Large language models are increasingly deployed as autonomous coding agents and have achieved remarkably strong performance on software engineering benchmarks. However, it is unclear whether such success transfers to computational scientific workflows, where tasks require not only strong coding ability, but also the ability to navigate complex, domain-specific procedures and to interpret results in the context of scientific claims. To address this question, we present AutoMat, a benchmark for evaluating LLM-based agents' ability to reproduce claims from computational materials science. AutoMat poses three interrelated challenges: recovering underspecified computational procedures, navigating specialized toolchains, and determining whether the resulting evidence supports a claim. By working closely with subject matter experts, we curate a set of claims from real materials science papers to test whether coding agents can recover and execute the end-to-end workflow needed to support (or undermine) such claims. We then evaluate multiple representative coding agent settings across several foundation models. Our results show that current LLM-based agents obtain low overall success rates on AutoMat, with the best-performing setting achieving a success rate of only 54.1%. Error analysis further reveals that agents perform worst when workflows must be reconstructed from paper text alone and that they fail primarily due to incomplete procedures, methodological deviations, and execution fragility. Taken together, these findings position AutoMat as both a benchmark for computational scientific reproducibility and a tool for diagnosing the current limitations of agentic systems in AI-for-science settings.