Smurfs: Multi-Agent System using Context-Efficient DFSDT for Tool Planning
作者: Junzhi Chen, Juhao Liang, Benyou Wang
分类: cs.CL
发布日期: 2024-05-09 (更新: 2025-06-14)
期刊: Proceedings of the 2025 Conference of the Nations of the Americas Chapter of the Association for Computational Linguistics: Human Language Technologies (Volume 1: Long Papers)
DOI: 10.18653/v1/2025.naacl-long.169
💡 一句话要点
Smurfs:基于上下文高效DFSDT的多智能体工具规划系统
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多智能体系统 工具规划 深度优先搜索决策树 上下文高效 大型语言模型
📋 核心要点
- ReAct等工具使用框架存在错误累积和探索范围受限的问题,DFSDT虽有改进,但在单智能体场景下仍面临挑战。
- Smurfs通过模块化设计和上下文信息高效利用,在多智能体系统中增强了DFSDT的性能,无需额外训练。
- 实验表明,Smurfs在多个任务中超越基线,显著降低了token使用量,并提升了模型性能。
📝 摘要(中文)
本文提出了一种名为“Smurfs”的新型多智能体系统(MAS),旨在增强深度优先搜索决策树(DFSDT)在工具使用方面的性能。Smurfs采用模块化、上下文高效且无需训练的设计,解决了ReAct框架中存在的错误传播和探索不足等问题,以及DFSDT在单智能体设置中遇到的回滚不稳定、上下文冗余和过早终止等挑战。在开放式的StableToolBench和封闭式的HotpotQA任务上的实验结果表明,Smurfs优于基线方法,与DFSDT相比,token使用量减少了60.9%,并使Mistral-7b的性能与GPT-4-DFSDT相当。消融研究验证了Smurfs核心组件的有效性,为MAS的构建和解释提供了有价值的见解,并为未来的探索铺平了道路。
🔬 方法详解
问题定义:现有方法如ReAct在复杂问题解决中,容易出现错误传播,导致最终结果不佳。DFSDT虽然尝试解决这个问题,但在单智能体环境下,存在回滚不稳定、上下文冗余以及过早终止的问题,限制了其性能。论文旨在解决这些问题,提升工具使用的效率和准确性。
核心思路:Smurfs的核心思路是利用多智能体系统,通过模块化设计和上下文信息的高效管理,来增强DFSDT的性能。每个智能体负责不同的任务,协同工作,减少错误传播的可能性,并提升探索的效率。上下文高效管理减少了冗余信息,避免了过早终止。
技术框架:Smurfs采用多智能体架构,每个智能体负责特定的工具或任务。整体流程包括:问题分解、任务分配、智能体执行、结果整合。每个智能体内部使用改进的DFSDT算法进行决策。智能体之间通过共享上下文信息进行协作,并采用上下文压缩技术减少冗余。
关键创新:Smurfs的关键创新在于其多智能体架构和上下文高效管理机制。多智能体架构允许并行探索不同的解决方案,减少了错误传播的影响。上下文高效管理通过过滤和压缩上下文信息,减少了计算负担,并避免了过早终止。
关键设计:Smurfs的关键设计包括:1) 智能体数量和任务分配策略,需要根据具体问题进行调整。2) 上下文压缩算法,例如使用摘要或关键词提取技术。3) 智能体之间的通信协议,确保信息传递的准确性和效率。4) 决策树的剪枝策略,避免过度探索。
🖼️ 关键图片
📊 实验亮点
Smurfs在StableToolBench和HotpotQA任务上均取得了显著的性能提升。在StableToolBench上,Smurfs超越了基线方法,并在HotpotQA上,与DFSDT相比,token使用量减少了60.9%,同时使Mistral-7b的性能与GPT-4-DFSDT相当。消融实验验证了Smurfs各个核心组件的有效性。
🎯 应用场景
Smurfs可应用于需要复杂工具使用的场景,例如智能客服、自动化报告生成、科学研究辅助等。通过提升工具使用的效率和准确性,可以显著提高工作效率,降低人工成本。未来,Smurfs有望应用于更广泛的领域,例如机器人控制、自动驾驶等。
📄 摘要(原文)
Teaching large language models (LLMs) to use tools for solving complex problems can grant them human-like reasoning abilities. ReAct and its variants are popular frameworks for tool use in both single-agent and multi-agent systems. To address issues like error propagation and limited exploration in ReAct, the Deep First Search Decision Tree (DFSDT) was proposed, but it faces challenges such as rollback instability, redundant context, and premature termination in single-agent settings. We introduce "Smurfs," a novel multi-agent system (MAS) that enhances DFSDT with a modular, context-efficient, and training-free design. Smurfs surpasses baseline methods in both the open-ended StableToolBench and the closed-ended HotpotQA tasks, reducing token usage by 60.9\% compared to DFSDT and enabling Mistral-7b to perform on par with GPT-4-DFSDT. Extensive ablation studies confirm the effectiveness of Smurfs' core components, offering valuable insights for the construction and interpretation of MAS, and paving the way for future exploration.