RECODE-H: A Benchmark for Research Code Development with Interactive Human Feedback

作者: Chunyu Miao, Henry Peng Zou, Yangning Li, Yankai Chen, Yibo Wang, Fangxin Wang, Yifan Li, Wooseong Yang, Bowei He, Xinni Zhang, Dianzhi Yu, Hanchen Yang, Hoang H Nguyen, Yue Zhou, Jie Yang, Jizhou Guo, Wenzhe Fan, Chin-Yuan Yeh, Panpan Meng, Liancheng Fang, Jinhu Qi, Wei-Chieh Huang, Zhengyao Gu, Yuwei Han, Langzhou He, Yuyao Yang, Yinghui Li, Hai-Tao Zheng, Xue Liu, Irwin King, Philip S. Yu

分类: cs.CL, cs.AI

发布日期: 2025-10-07 (更新: 2025-10-24)

备注: Code and dataset are available at github.com/ChunyuMiao98/RECODE

💡 一句话要点

RECODE-H：一个通过人机交互反馈改进科研代码生成的基准。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 科研代码生成 人机交互 反馈驱动 大型语言模型 基准测试 迭代开发 代码调试 ReCodeAgent

📋 核心要点

现有LLM在科研代码生成中能力有限，缺乏对迭代和反馈驱动的真实工作流程的考虑。
提出RECODE-H基准，通过模拟人机交互，利用多轮反馈迭代改进LLM的代码生成能力。
实验表明，更丰富的反馈能显著提升LLM在复杂科研代码生成中的性能，但仍存在挑战。

📝 摘要（中文）

大型语言模型（LLMs）在支持科学研究实现方面展现出潜力，但生成正确且可执行代码的能力仍然有限。现有工作主要采用单次设置，忽略了科学研究开发中真实的迭代和反馈驱动的工作流程。为了解决这一差距，我们提出了RECODE-H，这是一个包含来自研究论文和存储库的102个任务的基准，通过与LLM模拟的人类反馈进行多轮交互来评估LLM智能体。它包括结构化指令、单元测试和一个五级反馈层次结构，以反映真实的科研人员-智能体协作。我们进一步提出了ReCodeAgent，一个将反馈集成到迭代代码生成中的框架。使用包括GPT-5、Claude-Sonnet-4、DeepSeek-V3.1和Gemini 2.5在内的领先LLM进行的实验表明，更丰富的反馈可以带来显著的性能提升，同时也突出了生成复杂科研代码方面持续存在的挑战。RECODE-H为开发科学研究实现中自适应的、反馈驱动的LLM智能体奠定了基础。

🔬 方法详解

问题定义：现有的大型语言模型在生成科研代码时，往往难以保证代码的正确性和可执行性。现有的评估方法通常采用单次生成的方式，忽略了科研代码开发过程中迭代和反馈的重要性。这导致LLM难以适应真实科研场景中不断调整和完善代码的需求。

核心思路：RECODE-H的核心思路是通过构建一个模拟真实科研人员反馈的交互环境，让LLM智能体在多轮迭代中不断学习和改进代码。这种反馈驱动的迭代过程能够帮助LLM更好地理解科研任务的需求，并生成更可靠的代码。

技术框架：RECODE-H包含以下几个主要组成部分：1) 来自研究论文和代码仓库的102个科研任务；2) 结构化的任务指令和单元测试；3) 一个五级反馈层次结构，模拟不同程度的人工反馈；4) ReCodeAgent框架，用于集成反馈信息并进行迭代代码生成。LLM智能体首先根据任务指令生成代码，然后接收模拟人类的反馈，根据反馈调整代码，并重复这个过程直到满足要求。

关键创新：RECODE-H的关键创新在于构建了一个更贴近真实科研场景的评估环境，强调了反馈在代码生成过程中的重要性。通过多轮交互和分层反馈，RECODE-H能够更全面地评估LLM在科研代码生成方面的能力，并促进相关技术的发展。ReCodeAgent框架则提供了一种将反馈信息有效集成到代码生成过程中的方法。

关键设计：RECODE-H的五级反馈层次结构包括：1) 无反馈；2) 通过/失败的单元测试结果；3) 错误类型信息；4) 错误位置信息；5) 详细的错误描述和修改建议。ReCodeAgent框架使用这些反馈信息来调整LLM的代码生成策略，例如，通过强化学习或微调来提高代码的正确性和可执行性。具体的参数设置和网络结构取决于所使用的LLM和反馈集成方法。

🖼️ 关键图片

📊 实验亮点

实验结果表明，使用更丰富的反馈信息能够显著提升LLM在RECODE-H基准上的性能。例如，GPT-5、Claude-Sonnet-4、DeepSeek-V3.1和Gemini 2.5等领先LLM在接收到详细的错误描述和修改建议后，代码生成成功率得到了显著提升。这验证了反馈驱动的迭代方法在科研代码生成中的有效性。

🎯 应用场景

RECODE-H的研究成果可以应用于自动化科研代码生成、智能编程助手、以及科研人员与AI协同开发等领域。通过提供更智能的代码生成和调试工具，可以显著提高科研效率，加速科学发现的进程。未来，该研究有望推动AI在科学研究领域的更广泛应用。

📄 摘要（原文）

Large language models (LLMs) show the promise in supporting scientific research implementation, yet their ability to generate correct and executable code remains limited. Existing works largely adopt one-shot settings, ignoring the iterative and feedback-driven nature of realistic workflows of scientific research development. To address this gap, we present RECODE-H, a benchmark of 102 tasks from research papers and repositories that evaluates LLM agents through multi-turn interactions with LLM-simulated human feedback. It includes structured instructions,unit tests, and a five-level feedback hierarchy to reflect realistic researcher-agent collaboration. We further present ReCodeAgent, a framework that integrates feedback into iterative code generation. Experiments with leading LLMs, including GPT-5, Claude-Sonnet-4, DeepSeek-V3.1, and Gemini 2.5, show substantial performance gains with richer feedback, while also highlighting ongoing challenges in the generation of complex research code. RECODE-H establishes a foundation for developing adaptive, feedback-driven LLM agents in scientific research implementation

RECODE-H: A Benchmark for Research Code Development with Interactive Human Feedback

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理