GrandCode: Achieving Grandmaster Level in Competitive Programming via Agentic Reinforcement Learning
作者: DeepReinforce Team, Xiaoya Li, Xiaofei Sun, Guoyin Wang, Songqiao Su, Chris Shum, Jiwei Li
分类: cs.AI
发布日期: 2026-04-06
💡 一句话要点
GrandCode:通过Agent强化学习在竞技编程中达到特级大师水平
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 竞技编程 强化学习 多智能体系统 代码生成 Agentic GRPO
📋 核心要点
- 现有AI在竞技编程中表现仍逊于顶尖人类,面临复杂问题分解和长期策略规划的挑战。
- GrandCode采用多智能体架构,协同假设、求解、测试等模块,并通过强化学习联合优化。
- GrandCode在Codeforces现场比赛中击败所有人类选手,证明AI已超越人类顶尖程序员。
📝 摘要(中文)
竞技编程是AI在编码领域中为数不多的尚未完全超越人类的阵地之一。目前最好的AI系统在竞技编程方面仍然不如最优秀的人类。谷歌的Gemini~3 Deep Think最近取得了第8名的成绩,甚至没有在现场比赛条件下进行评估。本文介绍了GrandCode,一个专为竞技编程设计的多智能体强化学习系统。GrandCode的能力归功于两个关键因素:(1) 它协调各种智能体模块(假设提出、求解器、测试生成器、总结等),并通过后训练和在线测试时强化学习共同改进它们;(2) 我们引入了Agentic GRPO,专门为具有延迟奖励和严重离策略漂移的多阶段智能体rollout设计,这在智能体强化学习中很普遍。GrandCode是第一个在竞技编程的现场比赛中始终击败所有人类参与者的AI系统:在最近的三场Codeforces现场比赛中,即Round~1087(2026年3月21日)、Round~1088(2026年3月28日)和Round~1089(2026年3月29日),GrandCode均名列第一,击败了包括传奇特级大师在内的所有人类参与者。GrandCode表明,AI系统已经达到了超越最强大的程序员在最具竞争力的编码任务上的水平。
🔬 方法详解
问题定义:论文旨在解决AI在竞技编程中难以超越人类顶尖程序员的问题。现有方法在处理复杂问题分解、长期策略规划以及从延迟奖励中学习方面存在不足,导致难以在竞争激烈的编程环境中取得优异成绩。
核心思路:GrandCode的核心思路是构建一个多智能体系统,将复杂的编程任务分解为多个子任务,并由不同的智能体模块负责。通过智能体之间的协作和强化学习,系统能够学习到更有效的解题策略,并适应不断变化的比赛环境。
技术框架:GrandCode的整体架构包含多个智能体模块,例如假设提出模块、求解器模块、测试生成器模块和总结模块。这些模块协同工作,形成一个完整的解题流程。系统首先通过假设提出模块生成可能的解题思路,然后由求解器模块尝试实现这些思路。测试生成器模块负责生成测试用例,用于评估求解器模块的性能。最后,总结模块对整个解题过程进行总结和反思,以便改进未来的解题策略。系统采用后训练和在线测试时强化学习的方式,不断优化各个智能体模块的性能。
关键创新:GrandCode的关键创新在于其多智能体架构和Agentic GRPO算法。多智能体架构能够将复杂的编程任务分解为多个子任务,从而降低了学习难度。Agentic GRPO算法专门为具有延迟奖励和严重离策略漂移的多阶段智能体rollout设计,能够有效地解决智能体强化学习中的挑战。
关键设计:Agentic GRPO算法是GrandCode的关键设计之一。该算法通过引入一种新的奖励函数和一种新的策略梯度估计方法,能够有效地解决延迟奖励和离策略漂移的问题。具体的参数设置、损失函数和网络结构等技术细节在论文中有详细描述,但此处无法完全展开。
🖼️ 关键图片
📊 实验亮点
GrandCode在三场Codeforces现场比赛中均获得第一名,击败了包括传奇特级大师在内的所有人类参与者。这一结果表明,AI系统在竞技编程领域已经超越了人类顶尖水平。具体性能数据和对比基线在论文中有详细描述,但此处无法完全展开。
🎯 应用场景
GrandCode的研究成果可应用于自动化代码生成、软件测试、程序调试等领域。通过模仿人类顶尖程序员的解题思路和策略,AI系统可以帮助程序员提高工作效率,并解决复杂的编程问题。此外,该研究还可以促进多智能体强化学习算法的发展,并为其他领域的智能体协作问题提供借鉴。
📄 摘要(原文)
Competitive programming remains one of the last few human strongholds in coding against AI. The best AI system to date still underperforms the best humans competitive programming: the most recent best result, Google's Gemini~3 Deep Think, attained 8th place even not being evaluated under live competition conditions. In this work, we introduce GrandCode, a multi-agent RL system designed for competitive programming. The capability of GrandCode is attributed to two key factors: (1) It orchestrates a variety of agentic modules (hypothesis proposal, solver, test generator, summarization, etc) and jointly improves them through post-training and online test-time RL; (2) We introduce Agentic GRPO specifically designed for multi-stage agent rollouts with delayed rewards and the severe off-policy drift that is prevalent in agentic RL. GrandCode is the first AI system that consistently beats all human participants in live contests of competitive programming: in the most recent three Codeforces live competitions, i.e., Round~1087 (Mar 21, 2026), Round~1088 (Mar 28, 2026), and Round~1089 (Mar 29, 2026), GrandCode placed first in all of them, beating all human participants, including legendary grandmasters. GrandCode shows that AI systems have reached a point where they surpass the strongest human programmers on the most competitive coding tasks.