ProST: Progressive Sub-task Training for Pareto-Optimal Multi-agent Systems Using Small Language Models

📄 arXiv: 2509.04508v2 📥 PDF

作者: Biddut Sarker Bijoy, Mohammad Saqib Hasan, Pegah Alipoormolabashi, Avirup Sil, Aruna Balasubramanian, Niranjan Balasubramanian

分类: cs.CL

发布日期: 2025-09-02 (更新: 2025-11-11)


💡 一句话要点

提出ProST渐进式子任务训练,提升小型语言模型多智能体系统在复杂任务中的效率和效果。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多智能体系统 小型语言模型 渐进式训练 课程学习 子任务学习 AppWorld环境 有效性-效率权衡

📋 核心要点

  1. 小型语言模型在复杂任务中面临长轨迹学习困难,导致多智能体系统性能受限。
  2. 提出渐进式子任务训练策略ProST,类似于课程学习,逐步引入子任务以提升学习效果。
  3. 实验表明ProST能有效提升多智能体系统性能,实现更好的有效性-效率权衡,并降低子任务错误率。

📝 摘要(中文)

本文研究了使用小型语言模型(SLMs)的多智能体系统与使用大型语言模型(LLMs)的单智能体系统在解决复杂问题时的有效性和效率对比。研究发现,小型语言模型在长轨迹学习中存在困难,限制了其性能,即使经过专门的角色训练,也无法有效地学习所有子任务。为了解决这个问题,本文提出了一种简单的渐进式子任务训练策略,该策略在每个训练周期中逐步引入新的子任务。实验结果表明,这种类似于实例级别课程学习的策略,能够持续提高多智能体系统在各种配置下的有效性。帕累托分析表明,微调后的多智能体系统能够实现更好的有效性-效率权衡。额外的消融实验和分析表明了渐进式训练策略的重要性及其降低子任务错误率的能力。

🔬 方法详解

问题定义:论文旨在解决小型语言模型(SLMs)在复杂多智能体任务中,由于长轨迹学习困难导致的性能瓶颈问题。现有方法难以使SLMs有效学习所有子任务,限制了多智能体系统的整体表现。

核心思路:论文的核心思路是采用渐进式子任务训练策略,类似于课程学习,逐步增加训练难度。通过在每个训练周期引入新的子任务,使SLMs能够逐步掌握复杂任务的各个组成部分,从而提高整体学习效果。这种方法旨在克服SLMs在长轨迹学习中的局限性。

技术框架:整体框架包括:1) 使用不同规模的语言模型构建单智能体和多智能体系统;2) 在AppWorld环境中进行实验,该环境包含复杂的任务;3) 采用渐进式子任务训练策略ProST,在每个训练epoch逐步引入新的子任务;4) 对比ProST训练的多智能体系统与基线方法,进行帕累托分析,评估有效性和效率的权衡。

关键创新:关键创新在于提出的渐进式子任务训练策略ProST。与传统的端到端训练方法不同,ProST通过逐步引入子任务,使SLMs能够更好地学习复杂任务。这种方法类似于实例级别的课程学习,但应用于子任务级别,更适合多智能体系统的训练。

关键设计:ProST的关键设计在于如何确定子任务的引入顺序和时间。论文中采用了一种简单的策略,即在每个训练epoch中逐步引入新的子任务。具体的参数设置和损失函数等细节可能根据具体的AppWorld环境和任务而有所不同,论文中未详细描述这些细节。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,ProST渐进式子任务训练策略能够显著提高多智能体系统的性能。帕累托分析显示,经过ProST训练的多智能体系统在有效性和效率之间取得了更好的平衡。此外,消融实验证明了ProST策略的重要性,并验证了其降低子任务错误率的能力。具体性能提升数据未在摘要中给出。

🎯 应用场景

该研究成果可应用于各种需要多智能体协作的复杂任务场景,例如智能家居控制、自动驾驶、机器人协作等。通过使用小型语言模型和渐进式训练策略,可以在资源受限的环境中实现高效且有效的多智能体系统,降低部署成本,并提高系统的鲁棒性和可扩展性。

📄 摘要(原文)

Multi-agent systems with smaller language models (SLMs) present a viable alternative to single agent systems powered by large language models (LLMs) for addressing complex problems. In this work, we study how these alternatives compare in terms of both effectiveness and efficiency. To study this trade-off, we instantiate single and multi-agent systems for the complex problems in the AppWorld environment using different sized language models. We find that difficulties with long-trajectory learning in smaller language models (SLMs) limit their performance. Even when trained for specialized roles, SLMs fail to learn all subtasks effectively. To address this issue, we introduce a simple progressive sub-task training strategy, which introduces new sub-tasks progressively in each training epoch. We find that this novel strategy, analogous to instance level curriculum learning, consistently improves the effectiveness of multi-agents at all configurations. Our Pareto analysis shows that fine-tuned multi-agent systems yield better effectiveness-efficiency trade-offs. Additional ablations and analyses shows the importance of our progressive training strategy and its ability to reduce subtask error rates.