SUPER: Evaluating Agents on Setting Up and Executing Tasks from Research Repositories
作者: Ben Bogin, Kejuan Yang, Shashank Gupta, Kyle Richardson, Erin Bransom, Peter Clark, Ashish Sabharwal, Tushar Khot
分类: cs.AI, cs.CL, cs.SE
发布日期: 2024-09-11
💡 一句话要点
SUPER:评估LLM自主执行科研代码库任务的能力,填补了该领域benchmark的空白。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 科研代码库 自主执行 评估基准 机器学习 自然语言处理 代码复现
📋 核心要点
- 现有方法难以让LLM自主复现科研代码库结果,缺乏有效的评估基准。
- SUPER基准通过构建包含端到端问题、子问题和自动生成问题的数据集,全面评估LLM的科研任务执行能力。
- 实验表明,即使是GPT-4o这样的先进模型,在SUPER基准上的表现仍然有限,凸显了该任务的难度和挑战。
📝 摘要(中文)
大型语言模型(LLM)在代码编写方面取得了显著进展,本文旨在评估它们是否能够自主地复现科研代码库中的结果。为了实现这一目标,我们提出了SUPER,这是首个旨在评估LLM在设置和执行科研代码库任务能力上的基准。SUPER旨在捕捉研究人员在使用机器学习(ML)和自然语言处理(NLP)科研代码库时面临的实际挑战。我们的基准包括三个不同的问题集:45个带有专家注释解决方案的端到端问题,152个从专家集中提取的、专注于特定挑战(例如,配置训练器)的子问题,以及602个用于大规模开发的自动生成问题。我们引入了各种评估指标来评估任务的成功和进展,在有黄金标准答案时使用黄金标准答案,否则使用近似值。实验结果表明,最先进的方法难以解决这些问题,最好的模型(GPT-4o)仅解决了16.3%的端到端问题和46.1%的场景。这说明了这项任务的挑战性,并表明SUPER可以作为社区衡量和取得进展的宝贵资源。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)在自主执行科研代码库任务方面的能力评估问题。现有的方法缺乏一个专门的基准来衡量LLM在实际科研环境中的表现,尤其是在设置、配置和运行代码库以复现实验结果方面的能力。这使得研究人员难以有效验证、理解和扩展先前的工作。
核心思路:论文的核心思路是构建一个名为SUPER的基准,该基准包含一系列精心设计的问题,这些问题模拟了研究人员在处理机器学习和自然语言处理科研代码库时遇到的真实挑战。通过评估LLM在这些问题上的表现,可以更准确地了解其自主执行科研任务的能力。
技术框架:SUPER基准包含三个主要组成部分:1) 端到端问题集:包含45个完整的科研任务,每个任务都带有专家注释的解决方案。2) 子问题集:包含152个从端到端问题中提取的子问题,专注于特定的挑战,例如配置训练器或处理数据依赖。3) 自动生成问题集:包含602个自动生成的问题,用于支持更大规模的开发和评估。评估指标包括任务成功率和进展评估,使用黄金标准答案或近似值进行评估。
关键创新:SUPER基准的关键创新在于其专注于评估LLM在实际科研环境中的自主执行能力。与传统的代码生成或理解任务不同,SUPER更侧重于LLM在设置、配置和运行复杂科研代码库方面的能力。此外,SUPER还提供了多种评估指标,以更全面地衡量LLM的表现。
关键设计:SUPER基准的关键设计包括:1) 问题集的构建:问题集的设计基于真实的科研代码库,并由领域专家进行注释和验证。2) 子问题的提取:子问题的提取旨在隔离特定的挑战,以便更精确地评估LLM在这些挑战上的表现。3) 自动生成问题的设计:自动生成问题旨在支持更大规模的开发和评估,并提供更多的训练数据。4) 评估指标的选择:评估指标的选择旨在全面衡量LLM的任务成功率和进展评估。
🖼️ 关键图片
📊 实验亮点
实验结果表明,即使是最先进的模型(GPT-4o)在SUPER基准上的表现仍然有限,端到端问题的解决率仅为16.3%,场景解决率为46.1%。这表明,自主执行科研代码库任务仍然是一个具有挑战性的问题,SUPER可以作为社区衡量和取得进展的宝贵资源。
🎯 应用场景
SUPER基准的潜在应用领域包括:自动化科研流程、辅助研究人员验证和扩展现有工作、提升LLM在实际科研任务中的应用能力。通过SUPER,可以促进LLM在科研领域的更广泛应用,并加速科研进展。
📄 摘要(原文)
Given that Large Language Models (LLMs) have made significant progress in writing code, can they now be used to autonomously reproduce results from research repositories? Such a capability would be a boon to the research community, helping researchers validate, understand, and extend prior work. To advance towards this goal, we introduce SUPER, the first benchmark designed to evaluate the capability of LLMs in setting up and executing tasks from research repositories. SUPERaims to capture the realistic challenges faced by researchers working with Machine Learning (ML) and Natural Language Processing (NLP) research repositories. Our benchmark comprises three distinct problem sets: 45 end-to-end problems with annotated expert solutions, 152 sub problems derived from the expert set that focus on specific challenges (e.g., configuring a trainer), and 602 automatically generated problems for larger-scale development. We introduce various evaluation measures to assess both task success and progress, utilizing gold solutions when available or approximations otherwise. We show that state-of-the-art approaches struggle to solve these problems with the best model (GPT-4o) solving only 16.3% of the end-to-end set, and 46.1% of the scenarios. This illustrates the challenge of this task, and suggests that SUPER can serve as a valuable resource for the community to make and measure progress.