Fleet of Agents: Coordinated Problem Solving with Large Language Models
作者: Lars Klein, Nearchos Potamitis, Roland Aydin, Robert West, Caglar Gulcehre, Akhil Arora
分类: cs.CL, cs.AI, cs.LG, cs.NE
发布日期: 2024-05-07 (更新: 2025-05-10)
备注: ICML 2025; 28 pages, 68 figures, 8 tables
🔗 代码/项目: GITHUB
💡 一句话要点
提出Fleet of Agents (FoA)框架,利用LLM智能体协同解决复杂推理问题,实现成本与质量的平衡。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 智能体 群体智能 动态树搜索 遗传算法 粒子滤波 成本效益
📋 核心要点
- 现有提升LLM推理能力的方法难以有效平衡成本与质量之间的权衡,存在计算资源消耗过大的问题。
- FoA框架利用LLM作为智能体,通过动态树搜索和遗传型粒子滤波,在探索和利用之间取得平衡,优化搜索策略。
- 实验结果表明,FoA在多个基准测试中,以更低的成本实现了与现有方法相当甚至更好的性能,提升了成本效益。
📝 摘要(中文)
本文提出了一种新颖且直观的Fleet of Agents (FoA)框架,该框架利用大型语言模型(LLM)作为智能体,通过动态树搜索并采用遗传型粒子滤波方法来解决复杂推理问题。FoA生成多个智能体,每个智能体自主探索搜索空间,然后在选择阶段基于启发式价值函数进行重采样,从而优化探索和利用之间的平衡。这种机制实现了动态分支,并根据已发现的解决方案调整探索策略。我们在“24点游戏”、“迷你填字游戏”和“WebShop”三个基准任务上,使用GPT-3.5、GPT-4、LLaMA3.2-11B和LLaMA3.2-90B四个不同的LLM进行了大量实验。结果表明,在所有任务和LLM上,FoA平均获得了约5%的质量提升,同时仅需先前SOTA方法约40%的成本。值得注意的是,我们的分析表明:(1)FoA在所有基准测试方法中实现了最佳的成本-质量权衡;(2)FoA + LLaMA3.2-11B超越了Llama3.2-90B模型。FoA已公开发布。
🔬 方法详解
问题定义:论文旨在解决大型语言模型在复杂推理任务中,推理质量与计算成本难以兼顾的问题。现有方法通常需要大量的计算资源才能达到较好的性能,成本高昂,限制了其应用范围。因此,如何在保证推理质量的前提下,降低计算成本,是本文要解决的核心问题。
核心思路:论文的核心思路是将大型语言模型视为智能体,通过群体智能的方式进行协同问题求解。每个智能体独立探索解空间,然后通过选择机制,保留优秀的智能体,淘汰表现不佳的智能体,从而实现对搜索空间的有效探索和利用。这种方法借鉴了遗传算法的思想,通过“优胜劣汰”的方式,逐步逼近最优解。
技术框架:FoA框架主要包含以下几个阶段:1. 智能体生成:初始化多个LLM智能体,每个智能体具有相同的初始状态。2. 独立探索:每个智能体独立地在解空间中进行探索,生成候选解。3. 价值评估:使用启发式价值函数评估每个智能体生成的候选解的质量。4. 重采样:根据价值评估结果,对智能体进行重采样,保留价值较高的智能体,淘汰价值较低的智能体。5. 迭代优化:重复步骤2-4,直到达到预定的迭代次数或找到满足要求的解。
关键创新:FoA的关键创新在于将LLM与群体智能相结合,通过动态树搜索和遗传型粒子滤波,实现了对搜索空间的有效探索和利用。与传统的单智能体方法相比,FoA能够更全面地探索解空间,避免陷入局部最优解。与需要大量计算资源的现有方法相比,FoA能够以更低的成本实现更好的性能。
关键设计:FoA的关键设计包括:1. 启发式价值函数:用于评估候选解的质量,直接影响重采样的效果。价值函数的设计需要根据具体任务进行调整。2. 重采样策略:决定如何根据价值评估结果选择智能体。常用的重采样策略包括轮盘赌选择、锦标赛选择等。3. 智能体数量:智能体数量的设置会影响搜索空间的探索范围和计算成本。需要根据具体任务进行调整。
🖼️ 关键图片
📊 实验亮点
实验结果表明,FoA在“24点游戏”、“迷你填字游戏”和“WebShop”三个基准任务上,使用GPT-3.5、GPT-4、LLaMA3.2-11B和LLaMA3.2-90B四个不同的LLM,平均获得了约5%的质量提升,同时仅需先前SOTA方法约40%的成本。更令人瞩目的是,FoA + LLaMA3.2-11B的性能甚至超越了Llama3.2-90B模型,充分展示了FoA的优越性。
🎯 应用场景
FoA框架具有广泛的应用前景,可以应用于各种需要复杂推理和决策的任务,例如游戏AI、自动规划、机器人控制、金融建模等。通过降低计算成本,FoA使得大型语言模型能够更广泛地应用于资源受限的场景,例如移动设备和嵌入式系统。未来,FoA可以与其他技术相结合,例如强化学习和迁移学习,进一步提升其性能和泛化能力。
📄 摘要(原文)
While numerous frameworks have been developed to enhance the reasoning abilities of large language models (LLMs), there is a scarcity of methods that effectively balance the trade-off between cost and quality. In this paper, we introduce Fleet of Agents (FoA), a novel and intuitive yet principled framework utilizing LLMs as agents to navigate through dynamic tree searches, employing a genetic-type particle filtering approach. FoA spawns a multitude of agents, each exploring the search space autonomously, followed by a selection phase where resampling based on a heuristic value function optimizes the balance between exploration and exploitation. This mechanism enables dynamic branching, adapting the exploration strategy based on discovered solutions. We conduct extensive experiments on three benchmark tasks,
Game of 24'',Mini-Crosswords'', andWebShop'', utilizing four different LLMs,GPT-3.5'',GPT-4'',LLaMA3.2-11B'', and ``LLaMA3.2-90B''. On average across all tasks and LLMs, FoA obtains a quality improvement of ~5% while requiring only ~40% of the cost of previous SOTA methods. Notably, our analyses reveal that (1) FoA achieves the best cost-quality trade-off among all benchmarked methods and (2) FoA + LLaMA3.2-11B surpasses the Llama3.2-90B model. FoA is publicly available at https://github.com/au-clan/FoA.