Solvita: Enhancing Large Language Models for Competitive Programming via Agentic Evolution
作者: Han Li, Jinyu Tian, Rili Feng, Yuqiao Du, Chong Zheng, Chenyu Wang, Chenchen Liu, Shihao Li, Xinping Lei, Yifan Yao, Weihao Xie, Letian Zhu, Jiaheng Liu
分类: cs.AI
发布日期: 2026-05-14
💡 一句话要点
Solvita:通过Agent进化增强大型语言模型在编程竞赛中的能力
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 编程竞赛 Agent进化 强化学习 代码生成
📋 核心要点
- 现有大型语言模型在复杂编程竞赛中推理能力不足,多Agent框架缺乏状态记忆,无法有效利用历史经验。
- Solvita框架通过Agent进化实现持续学习,无需更新LLM权重,Agent配备可训练的图结构知识网络。
- 实验结果表明,Solvita在多个编程竞赛数据集上超越现有方法,显著提升了代码生成的准确率。
📝 摘要(中文)
大型语言模型(LLMs)在需要严谨推理的编程竞赛中仍然面临挑战。现有的多Agent框架试图弥补这一差距,但本质上是无状态的:它们依赖于静态检索,并丢弃了从先前任务中获得的宝贵问题解决和调试经验。为了解决这个问题,我们提出了Solvita,一个Agent进化框架,它能够在不更新底层LLM权重的情况下进行持续学习。Solvita将问题解决重组为一个闭环系统,包括策略选择、程序合成、认证监督和有针对性的攻击,由四个专门的Agent执行:Planner、Solver、Oracle和Hacker。每个Agent都配有一个可训练的、图结构的知识网络。随着系统的运行,结果信号(如通过/失败判定、测试认证质量和Hacker发现的对抗性漏洞)被转化为对这些网络权重的强化学习更新。这使得Agent能够根据过去的成功和失败动态地路由未来的查询,从而有效地积累可转移的推理经验。在CodeContests、APPS、AetherCode和实际Codeforces比赛中的评估表明,Solvita在代码生成Agent中建立了新的state-of-the-art,优于现有的多Agent流水线,并且几乎使单次基线的准确率翻倍。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLMs)在复杂编程竞赛中表现不佳的问题。现有的多Agent框架虽然尝试提升LLMs的性能,但它们是无状态的,无法从过去的经验中学习和改进,导致效率低下和泛化能力不足。这些框架通常依赖于静态检索,忽略了问题解决和调试过程中积累的宝贵信息。
核心思路:Solvita的核心思路是引入Agent进化机制,使Agent能够持续学习并积累经验,而无需直接更新底层LLM的权重。通过将问题解决过程分解为多个Agent协作的闭环系统,并为每个Agent配备可训练的知识网络,Solvita能够根据过去的成功和失败动态调整策略,从而提高问题解决的效率和准确性。这种设计允许Agent在解决新问题时利用先前任务的经验,实现知识的迁移和复用。
技术框架:Solvita框架包含四个主要Agent:Planner、Solver、Oracle和Hacker。Planner负责制定问题解决策略;Solver根据策略生成代码;Oracle负责对生成的代码进行认证监督,判断其正确性;Hacker负责发现代码中的漏洞。每个Agent都配有一个可训练的、图结构的知识网络,用于存储和检索经验。整个系统形成一个闭环,Agent之间的交互和反馈驱动知识网络的更新和优化。
关键创新:Solvita的关键创新在于其Agent进化机制,它允许Agent在不更新底层LLM权重的情况下进行持续学习。通过将问题解决过程分解为多个Agent协作的闭环系统,并为每个Agent配备可训练的知识网络,Solvita能够根据过去的成功和失败动态调整策略,从而提高问题解决的效率和准确性。与现有方法相比,Solvita能够更好地利用历史经验,实现知识的迁移和复用。
关键设计:Solvita的关键设计包括:(1) Agent的划分和职责分配,确保问题解决过程的各个方面都得到充分考虑;(2) 图结构知识网络的设计,用于存储和检索经验;(3) 强化学习更新机制,用于根据结果信号更新知识网络的权重;(4) Agent之间的交互和反馈机制,确保信息的有效传递和利用。具体的参数设置、损失函数和网络结构等技术细节在论文中进行了详细描述,但在此处无法完全展开。
🖼️ 关键图片
📊 实验亮点
Solvita在CodeContests、APPS、AetherCode和实际Codeforces比赛中取得了显著的性能提升。实验结果表明,Solvita在代码生成Agent中建立了新的state-of-the-art,优于现有的多Agent流水线,并且几乎使单次基线的准确率翻倍。这些结果表明,Solvita的Agent进化机制能够有效地提高LLMs在复杂编程任务中的性能。
🎯 应用场景
Solvita框架具有广泛的应用前景,可应用于自动化代码生成、软件测试、漏洞挖掘等领域。通过持续学习和经验积累,Solvita能够显著提高问题解决的效率和准确性,降低开发成本,并提升软件的质量和安全性。此外,该框架还可以应用于教育领域,帮助学生更好地学习编程和解决问题。
📄 摘要(原文)
Large language models (LLMs) still struggle with the rigorous reasoning demands of hard competitive programming. While recent multi-agent frameworks attempt to bridge this reliability gap, they remain fundamentally stateless: they rely on static retrieval and discard the valuable problem-solving and debugging experience gained from previous tasks. To address this, we present Solvita, an agentic evolution framework that enables continuous learning without requiring weight updates to the underlying LLM. Solvita reorganizes problem-solving into a closed-loop system of strategy selection, program synthesis, certified supervision, and targeted hacking, executed by four specialized agents: Planner, Solver, Oracle, and Hacker. Crucially, each agent is paired with a trainable, graph-structured knowledge network. As the system operates, outcome signals, such as pass/fail verdicts, test certification quality, and adversarial vulnerabilities discovered by the Hacker, are recast as reinforcement learning updates to these network weights. This allows the agents to dynamically route future queries based on past successes and failures, effectively accumulating transferable reasoning experience over time. Evaluated across CodeContests, APPS, AetherCode, and live Codeforces rounds, Solvita establishes a new state-of-the-art among code-generation agents, outperforming existing multi-agent pipelines and nearly doubling the accuracy of single-pass baselines.