MARS$^2$: Scaling Multi-Agent Tree Search via Reinforcement Learning for Code Generation
作者: Pengfei Li, Shijie Wang, Fangyuan Li, Yikun Fu, Kaifeng Liu, Kaiyan Zhang, Dazhi Zhang, Yuqiang Li, Biqing Qi, Bowen Zhou
分类: cs.AI, cs.CL
发布日期: 2026-04-16
备注: Accepted by ACL 2026
🔗 代码/项目: GITHUB
💡 一句话要点
提出MARS$^2$,通过多智能体强化学习树搜索扩展代码生成能力。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 多智能体强化学习 代码生成 树搜索 信用分配 群体优势
📋 核心要点
- 现有代码生成强化学习方法受限于轨迹多样性,导致性能提升受限,而搜索增强的RL仍受单智能体策略先验约束。
- MARS$^2$框架通过多智能体在共享树结构搜索环境中协作,利用异构智能体生成和改进候选方案,提升探索多样性。
- 实验表明,MARS$^2$在代码生成基准测试中,能够持续提升性能,验证了多智能体协作与树搜索结合的有效性。
📝 摘要(中文)
强化学习(RL)范式在代码生成等推理密集型任务中表现出强大的性能。然而,有限的轨迹多样性通常导致收益递减,从而限制了可达到的性能上限。搜索增强的RL通过引入结构化探索来缓解这个问题,但仍然受到单智能体策略先验的约束。同时,利用多个交互策略可以获得更多样化的探索信号,但现有方法通常与结构化搜索脱钩。我们提出了MARS$^2$(多智能体强化树搜索扩展),一个统一的RL框架,其中多个独立优化的智能体在共享的树结构搜索环境中协作。MARS$^2$将搜索树建模为一个可学习的多智能体交互环境,使异构智能体能够在共享的搜索拓扑中协作生成和改进候选解决方案。为了支持有效的学习,我们引入了一种基于树一致奖励塑造的路径级群体优势公式,这有助于在复杂的搜索轨迹中进行有效的信用分配。在代码生成基准上的实验表明,MARS$^2$在不同的模型组合和训练设置中始终提高性能,证明了将多智能体协作与树搜索相结合以增强强化学习的有效性。我们的代码已在https://github.com/TsinghuaC3I/MARTI上公开。
🔬 方法详解
问题定义:现有基于强化学习的代码生成方法,由于训练轨迹的多样性不足,导致模型性能提升遇到瓶颈。即使引入搜索增强的强化学习,也仍然受到单智能体策略的限制,无法充分探索解空间。因此,如何有效地利用多个智能体进行协同探索,并将其与结构化搜索相结合,是需要解决的关键问题。
核心思路:MARS$^2$的核心思路是将代码生成过程建模成一个多智能体在树结构搜索空间中的协作过程。通过引入多个独立优化的智能体,每个智能体可以探索不同的代码生成路径,从而增加轨迹的多样性。同时,利用共享的树结构搜索环境,智能体之间可以相互协作,共同改进候选解决方案。
技术框架:MARS$^2$框架主要包含以下几个模块:1) 多智能体策略网络:每个智能体都有自己的策略网络,用于生成代码片段。这些策略网络可以是同构的,也可以是异构的。2) 共享树结构搜索环境:所有智能体都在同一个树结构搜索环境中进行探索。树的每个节点代表一个部分生成的代码,边代表一个代码片段。3) 奖励函数:用于评估生成的代码的质量。4) 路径级群体优势函数:用于进行信用分配,确定哪些智能体的行为对最终结果贡献更大。
关键创新:MARS$^2$的关键创新在于将多智能体强化学习与树搜索相结合,并提出了路径级群体优势函数。与传统的单智能体方法相比,MARS$^2$能够更有效地探索解空间,并利用多个智能体的协作来改进候选解决方案。路径级群体优势函数能够更准确地评估每个智能体在整个搜索路径中的贡献,从而实现更有效的信用分配。
关键设计:MARS$^2$的关键设计包括:1) 异构智能体策略网络的设计,允许不同类型的智能体参与代码生成过程。2) 树结构搜索环境的构建,需要考虑如何有效地表示部分生成的代码,以及如何定义搜索策略。3) 路径级群体优势函数的具体形式,需要根据具体的任务进行调整。例如,可以使用蒙特卡洛树搜索(MCTS)来指导智能体的探索过程,并使用树一致性奖励塑造来提高学习效率。
🖼️ 关键图片
📊 实验亮点
实验结果表明,MARS$^2$在代码生成基准测试中取得了显著的性能提升。例如,在HumanEval数据集上,MARS$^2$相比于基线方法提升了X%。此外,MARS$^2$在不同的模型组合和训练设置下都表现出良好的鲁棒性,证明了其有效性和通用性。具体提升幅度数据未知,请查阅论文原文。
🎯 应用场景
MARS$^2$框架可应用于各种代码生成任务,例如软件开发、自动化测试、代码修复等。通过提升代码生成的质量和效率,可以降低软件开发的成本,提高软件的可靠性。未来,该框架还可以扩展到其他推理密集型任务,例如自然语言生成、机器翻译等。
📄 摘要(原文)
Reinforcement learning (RL) paradigms have demonstrated strong performance on reasoning-intensive tasks such as code generation. However, limited trajectory diversity often leads to diminishing returns, which constrains the achievable performance ceiling. Search-enhanced RL alleviates this issue by introducing structured exploration, which remains constrained by the single-agent policy priors. Meanwhile, leveraging multiple interacting policies can acquire more diverse exploratory signals, but existing approaches are typically decoupled from structured search. We propose \textbf{MARS$^2$} (Multi-Agent Reinforced Tree-Search Scaling), a unified RL framework in which multiple independently-optimized agents collaborate within a shared tree-structured search environment. MARS$^2$ models the search tree as a learnable multi-agent interaction environment, enabling heterogeneous agents to collaboratively generate and refine candidate solutions within a shared search topology. To support effective learning, we introduce a path-level group advantage formulation based on tree-consistent reward shaping, which facilitates effective credit assignment across complex search trajectories. Experiments on code generation benchmarks show that MARS$^2$ consistently improves performance across diverse model combinations and training settings, demonstrating the effectiveness of coupling multi-agent collaboration with tree search for enhancing reinforcement learning. Our code is publicly available at https://github.com/TsinghuaC3I/MARTI.