Combee: Scaling Prompt Learning for Self-Improving Language Model Agents

📄 arXiv: 2604.04247 📥 PDF

作者: Hanchen Li, Runyuan He, Qizheng Zhang, Changxiu Ji, Qiuyang Mang, Xiaokun Chen, Lakshya A Agrawal, Wei-Liang Liao, Eric Yang, Alvin Cheung, James Zou, Kunle Olukotun, Ion Stoica, Joseph E. Gonzalez

分类: cs.AI, cs.CL, cs.LG

发布日期: 2026-04-07


💡 一句话要点

Combee:扩展Prompt学习,实现自提升语言模型Agent

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: Prompt学习 自提升Agent 并行计算 大规模学习 语言模型 Agent轨迹 动态批量大小 Shuffle机制

📋 核心要点

  1. 现有Prompt学习方法在单Agent或低并行度下有效,但无法高效处理大规模Agent轨迹数据。
  2. Combee通过并行扫描、增强shuffle机制和动态批量大小控制,实现了高效且高质量的并行Prompt学习。
  3. 实验表明,Combee在多个任务上实现了高达17倍的加速,同时保持或提升了准确性。

📝 摘要(中文)

Prompt学习的最新进展使得大型语言模型Agent能够在推理时从上下文中获取任务相关知识,而无需更改参数。例如,现有方法(如ACE或GEPA)可以学习系统Prompt,根据之前的Agent运行来提高准确性。然而,这些方法主要集中在单Agent或低并行设置中,这从根本上限制了它们从大量收集的Agent轨迹中有效学习的能力。并行运行Prompt学习以适应从许多Agent轨迹或并行Agent执行中学习的增长趋势将是高效且有益的。然而,如果没有可扩展的原则性策略,当前的方法在高并行度下会遭受质量下降。为了提高Prompt学习的效率和质量,我们提出了Combee,这是一个用于扩展并行Prompt学习以实现自提升Agent的新框架。Combee加速了学习,并支持并行运行多个Agent,同时从其聚合轨迹中学习,而不会降低质量。为了实现这一点,Combee利用并行扫描并采用增强的shuffle机制;Combee还引入了动态批量大小控制器,以平衡质量和延迟。在AppWorld、Terminal-Bench、Formula和FiNER上的评估表明,Combee比以前的方法实现了高达17倍的加速,同时具有相当或更好的准确性和等效的成本。

🔬 方法详解

问题定义:现有Prompt学习方法在扩展到大规模并行Agent学习时面临效率和质量的挑战。具体来说,在高并行度下,简单的并行化会导致学习质量下降,因为各个Agent的梯度更新可能不一致,从而影响最终Prompt的优化效果。此外,传统的串行或低并行Prompt学习方法无法充分利用大规模Agent轨迹数据,导致学习效率低下。

核心思路:Combee的核心思路是通过并行化Prompt学习过程,并引入机制来保证学习质量。它利用并行扫描来加速梯度计算,并采用增强的shuffle机制来确保各个Agent轨迹数据的均匀混合,从而避免梯度偏差。此外,Combee还引入了动态批量大小控制器,根据学习过程中的质量和延迟动态调整批量大小,以平衡学习效率和质量。

技术框架:Combee的整体框架包括以下几个主要模块:1) Agent执行模块:并行运行多个Agent,生成Agent轨迹数据。2) 并行扫描模块:利用并行扫描算法,高效计算梯度。3) 增强Shuffle模块:对Agent轨迹数据进行shuffle,保证数据均匀混合。4) 动态批量大小控制模块:根据学习质量和延迟动态调整批量大小。5) Prompt更新模块:根据计算得到的梯度更新Prompt。

关键创新:Combee的关键创新在于其并行化Prompt学习框架,以及增强的shuffle机制和动态批量大小控制。传统的Prompt学习方法通常是串行或低并行的,而Combee通过并行扫描实现了高效的梯度计算。增强的shuffle机制保证了各个Agent轨迹数据的均匀混合,避免了梯度偏差。动态批量大小控制则平衡了学习效率和质量,使得Combee能够在高并行度下保持学习质量。

关键设计:Combee的关键设计包括:1) 并行扫描算法:用于高效计算梯度,具体实现细节未知。2) 增强Shuffle机制:具体实现细节未知,但其目标是保证Agent轨迹数据的均匀混合。3) 动态批量大小控制:根据学习过程中的质量和延迟动态调整批量大小,具体的调整策略未知。4) Prompt更新策略:使用梯度下降或其他优化算法更新Prompt,具体算法未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Combee在AppWorld、Terminal-Bench、Formula和FiNER等多个任务上进行了评估。实验结果表明,Combee比以前的方法实现了高达17倍的加速,同时保持了相当或更好的准确性。例如,在AppWorld任务上,Combee在加速17倍的同时,准确率与现有方法持平。这些结果表明,Combee能够有效地扩展Prompt学习,并提高自提升Agent的性能。

🎯 应用场景

Combee具有广泛的应用前景,可用于各种需要自提升Agent的场景,例如自动化程序修复、游戏AI、机器人控制等。通过并行学习和优化Prompt,Combee可以显著提高Agent的学习效率和性能,使其能够更好地适应复杂环境和完成各种任务。此外,Combee还可以应用于Prompt工程领域,帮助研究人员更高效地设计和优化Prompt。

📄 摘要(原文)

Recent advances in prompt learning allow large language model agents to acquire task-relevant knowledge from inference-time context without parameter changes. For example, existing methods (like ACE or GEPA) can learn system prompts to improve accuracy based on previous agent runs. However, these methods primarily focus on single-agent or low-parallelism settings. This fundamentally limits their ability to efficiently learn from a large set of collected agentic traces. It would be efficient and beneficial to run prompt learning in parallel to accommodate the growing trend of learning from many agentic traces or parallel agent executions. Yet without a principled strategy for scaling, current methods suffer from quality degradation with high parallelism. To improve both the efficiency and quality of prompt learning, we propose Combee, a novel framework to scale parallel prompt learning for self-improving agents. Combee speeds up learning and enables running many agents in parallel while learning from their aggregate traces without quality degradation. To achieve this, Combee leverages parallel scans and employs an augmented shuffle mechanism; Combee also introduces a dynamic batch size controller to balance quality and delay. Evaluations on AppWorld, Terminal-Bench, Formula, and FiNER demonstrate that Combee achieves up to 17x speedup over previous methods with comparable or better accuracy and equivalent cost.