SciReplicate-Bench: Benchmarking LLMs in Agent-driven Algorithmic Reproduction from Research Papers

📄 arXiv: 2504.00255v2 📥 PDF

作者: Yanzheng Xiang, Hanqi Yan, Shuyin Ouyang, Lin Gui, Yulan He

分类: cs.CL, cs.AI, cs.MA, cs.SE

发布日期: 2025-03-31 (更新: 2025-08-07)

🔗 代码/项目: GITHUB | PROJECT_PAGE


💡 一句话要点

提出SciReplicate-Bench以评估LLMs在算法重现中的表现

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 算法重现 自然语言处理 双代理框架 基准评估

📋 核心要点

  1. 现有方法在从研究论文中重现算法时面临理解和实现的双重挑战,导致生成代码的准确性不足。
  2. 论文提出了SciReplicate-Bench基准和Sci-Reproducer框架,通过双代理设计提高算法理解和代码生成的能力。
  3. 实验结果显示,尽管使用了强大的LLMs,最佳执行准确性仅为39%,揭示了算法描述不一致是重现成功的主要障碍。

📝 摘要(中文)

本研究评估了大型语言模型(LLMs)在从最新的自然语言处理(NLP)论文中生成代码的能力。该任务需要两项关键能力:算法理解和编码专业知识。为此,我们引入了SciReplicate-Bench,这是一个包含来自36篇2024年NLP论文的100个任务的基准,提供详细注释和全面测试用例。基于此基准,我们提出了Sci-Reproducer,一个双代理框架,包括一个从文献中解释算法概念的Paper Agent和一个从代码库中检索依赖并实现解决方案的Code Agent。我们还引入了推理图准确性来评估算法理解,并采用执行准确性、CodeBLEU和依赖/API召回率等指标评估实现质量。实验表明,最佳LLM的执行准确性仅为39%,突显了基准的挑战性。

🔬 方法详解

问题定义:本研究旨在解决大型语言模型在从研究论文中重现算法时的理解和实现能力不足的问题。现有方法在算法描述的准确性和完整性上存在明显不足,导致生成代码的效果不理想。

核心思路:论文的核心思路是通过构建SciReplicate-Bench基准和Sci-Reproducer框架,利用双代理系统分别处理算法理解和代码实现,从而提升重现的准确性和效率。

技术框架:整体架构包括Paper Agent和Code Agent两个主要模块。Paper Agent负责从文献中提取和理解算法概念,而Code Agent则从代码库中检索所需的依赖并实现解决方案。

关键创新:最重要的技术创新点在于引入了推理图准确性作为算法理解的评估标准,以及通过双代理设计来分别处理算法理解和代码实现的复杂性,这与现有方法的单一处理方式形成鲜明对比。

关键设计:在设计中,采用了多种评估指标,包括执行准确性、CodeBLEU和依赖/API召回率,以全面评估生成代码的质量和准确性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,尽管使用了多种强大的非推理和推理LLMs,最佳执行准确性仅为39%。这一结果突显了SciReplicate-Bench基准的挑战性,并指出了算法描述不一致是重现成功的关键障碍。

🎯 应用场景

该研究的潜在应用领域包括科研自动化、教育和软件开发等。通过提高算法重现的准确性,能够帮助研究人员更有效地验证和复现研究成果,推动科学研究的进展。此外,该框架也可用于教育领域,帮助学生理解算法实现的过程。

📄 摘要(原文)

This study evaluates large language models (LLMs) in generating code from algorithm descriptions in recent NLP papers. The task requires two key competencies: (1) algorithm comprehension: synthesizing information from papers and academic literature to understand implementation logic, and (2) coding expertise: identifying dependencies and correctly implementing necessary APIs. To facilitate rigorous evaluation, we introduce SciReplicate-Bench, a benchmark of 100 tasks from 36 NLP papers published in 2024, featuring detailed annotations and comprehensive test cases. Building on SciReplicate-Bench, we propose Sci-Reproducer, a dual-agent framework consisting of a Paper Agent that interprets algorithmic concepts from literature and a Code Agent that retrieves dependencies from repositories and implements solutions. To assess algorithm understanding, we introduce reasoning graph accuracy, which quantifies similarity between generated and reference reasoning graphs derived from code comments and structure. For evaluating implementation quality, we employ execution accuracy, CodeBLEU, and repository dependency/API recall metrics. In our experiments, we evaluate various powerful non-reasoning and reasoning LLMs as foundational models. The best-performing LLM using \ModelName~achieves only 39% execution accuracy, highlighting the benchmark's difficulty. Our analysis identifies missing or inconsistent algorithm descriptions as key barriers to successful reproduction. We make available our benchmark and code at https://github.com/xyzCS/SciReplicate-Bench and project homepage at https://xyzcs.github.io/scireplicate.github.io/.