HiRAS: A Hierarchical Multi-Agent Framework for Paper-to-Code Generation and Execution

📄 arXiv: 2604.17745v1 📥 PDF

作者: Hanhua Hong, Yizhi LI, Jiaoyan Chen, Sophia Ananiadou, Xiaoli Li, Jung-jae Kim, Chenghua Lin

分类: cs.CL

发布日期: 2026-04-20

备注: 29 pages

🔗 代码/项目: GITHUB


💡 一句话要点

提出HiRAS层级多智能体框架,用于论文到代码生成与执行,提升实验结果复现的鲁棒性与性能。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: Paper2Code 代码生成 多智能体系统 层级框架 实验复现

📋 核心要点

  1. 现有Paper2Code方法采用固定顺序的智能体流水线,缺乏全局协调,导致鲁棒性和性能受限。
  2. HiRAS采用层级多智能体框架,通过监督管理智能体协调细粒度阶段的专业智能体,实现端到端实验复现。
  3. 实验结果表明,HiRAS在使用开源模型时,性能超越现有SOTA方法10%以上,并显著减少了评估中的幻觉。

📝 摘要(中文)

大型语言模型在自动化计算研究,特别是实验结果复现方面展现出巨大潜力。然而,现有方法通常采用固定的顺序智能体流水线,缺乏全局协调,限制了其鲁棒性和整体性能。本文提出了层级研究智能体系统(HiRAS),一个用于端到端实验复现的层级多智能体框架,它利用监督管理智能体来协调跨细粒度阶段的专业智能体。此外,我们还发现了Paper2Code基准测试中无参考评估的局限性,并引入了Paper2Code-Extra(P2C-Ex),一种改进的协议,它整合了仓库级别的信息,并更好地与原始的基于参考的指标对齐。我们进行了广泛的评估,验证了我们提出的方法的有效性和鲁棒性,并观察到改进,包括使用开源骨干模型超越先前最先进水平的>10%的相对性能提升,并显著减少了评估中的幻觉。

🔬 方法详解

问题定义:论文旨在解决Paper2Code任务中,现有方法由于采用固定顺序的智能体流水线,缺乏全局协调而导致的鲁棒性和性能瓶颈。现有方法难以有效利用论文中的信息,生成的代码质量不高,且在评估过程中容易出现幻觉现象。

核心思路:论文的核心思路是引入层级多智能体框架,通过分层管理和协调不同的智能体,模拟人类研究人员进行实验复现的过程。顶层管理智能体负责全局规划和任务分配,底层专业智能体负责执行具体的代码生成、调试和测试任务。这种分层结构能够更好地利用论文信息,提高代码生成质量,并减少评估中的幻觉。

技术框架:HiRAS框架包含以下几个主要模块:1) 论文理解模块:负责解析论文,提取关键信息,如实验目标、数据集、模型结构和评估指标。2) 任务规划模块:顶层管理智能体根据论文信息,将实验复现任务分解为多个子任务,并分配给相应的专业智能体。3) 代码生成模块:专业智能体根据任务规划,生成相应的代码片段。4) 代码调试模块:专业智能体负责调试生成的代码,修复错误。5) 代码测试模块:专业智能体负责测试生成的代码,验证其是否符合实验要求。6) 结果评估模块:评估生成的代码的性能,并与论文中的结果进行比较。

关键创新:HiRAS的关键创新在于其层级多智能体架构,以及监督管理智能体的引入。这种架构能够更好地模拟人类研究人员进行实验复现的过程,提高代码生成质量和鲁棒性。此外,论文还提出了Paper2Code-Extra (P2C-Ex) 评估协议,通过引入仓库级别的信息,更好地与原始的基于参考的指标对齐,减少评估中的幻觉。

关键设计:HiRAS框架中的智能体可以采用不同的LLM作为骨干模型,例如GPT-3、LLaMA等。管理智能体可以使用更强大的模型,以进行更好的全局规划和任务分配。专业智能体可以使用较小的模型,以提高效率。论文还设计了特定的prompt,引导智能体生成高质量的代码。此外,论文还采用了强化学习等技术,对智能体进行训练,使其能够更好地完成实验复现任务。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,HiRAS在Paper2Code基准测试中取得了显著的性能提升。使用开源骨干模型时,HiRAS的性能超越了先前最先进水平10%以上。此外,HiRAS还显著减少了评估中的幻觉现象,提高了代码生成质量。P2C-Ex评估协议也更准确地反映了代码的真实性能。

🎯 应用场景

HiRAS框架可应用于自动化科学研究、代码生成、软件开发等领域。它可以帮助研究人员快速复现实验结果,验证科研成果,加速科研进程。在软件开发领域,HiRAS可以自动生成代码,提高开发效率,降低开发成本。未来,HiRAS有望成为科研和软件开发的重要工具。

📄 摘要(原文)

Recent advances in large language models have highlighted their potential to automate computational research, particularly reproducing experimental results. However, existing approaches still use fixed sequential agent pipelines with weak global coordination, which limits their robustness and overall performance. In this work, we propose Hierarchical Research Agent System (HiRAS), a hierarchical multi-agent framework for end-to-end experiment reproduction that employs supervisory manager agents to coordinate specialised agents across fine-grained stages. We also identify limitations in the reference-free evaluation of the Paper2Code benchmark and introduce Paper2Code-Extra (P2C-Ex), a refined protocol that incorporates repository-level information and better aligns with the original reference-based metric. We conduct extensive evaluation, validating the effectiveness and robustness of our proposed methods, and observing improvements, including >10\% relative performance gain beyond the previous state-of-the-art using open-source backbone models and significantly reduced hallucination in evaluation. Our work is available on GitHub: https://github.com/KOU-199024/HiRAS.