ToolTree: Efficient LLM Agent Tool Planning via Dual-Feedback Monte Carlo Tree Search and Bidirectional Pruning

📄 arXiv: 2603.12740v1 📥 PDF

作者: Shuo Yang, Soyeon Caren Han, Yihao Ding, Shuhe Wang, Eduard Hoy

分类: cs.AI

发布日期: 2026-03-13

备注: ICLR 2026


💡 一句话要点

ToolTree:通过双重反馈蒙特卡洛树搜索和双向剪枝实现高效的LLM Agent工具规划

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: LLM Agent 工具规划 蒙特卡洛树搜索 双向剪枝 人工智能 智能体 大语言模型

📋 核心要点

  1. 现有LLM Agent工具规划方法缺乏远见,未能充分考虑工具间的依赖关系,导致规划效率和性能受限。
  2. ToolTree采用蒙特卡洛树搜索,结合双阶段LLM评估和双向剪枝,探索更优的工具使用序列。
  3. 实验结果表明,ToolTree在多个基准测试中显著提升了工具规划的性能和效率,平均提升约10%。

📝 摘要(中文)

大型语言模型(LLM)Agent越来越多地应用于复杂的多步骤任务,这些任务需要在各个领域与不同的外部工具进行交互。然而,当前的LLM Agent工具规划方法通常依赖于贪婪的、反应式的工具选择策略,缺乏远见,并且未能考虑到工具之间的依赖关系。在本文中,我们提出了一种新颖的蒙特卡洛树搜索(MCTS)启发的工具规划范式ToolTree。ToolTree使用双阶段LLM评估和双向剪枝机制来探索可能的工具使用轨迹,这使得Agent能够在扩展的工具使用序列中做出明智的、自适应的决策,同时在工具执行前后剪除不太有希望的分支。在4个基准测试上的开放集和封闭集工具规划任务中的实证评估表明,ToolTree始终提高性能,同时保持最高的效率,与最先进的规划范式相比,平均增益约为10%。

🔬 方法详解

问题定义:现有LLM Agent在进行复杂任务时,需要与各种外部工具交互。然而,现有的工具规划方法通常采用贪婪策略,即每一步都选择当前看起来最优的工具,缺乏对未来步骤的规划和工具间依赖关系的考虑,容易陷入局部最优解,导致任务完成效率和成功率不高。

核心思路:ToolTree的核心思路是借鉴蒙特卡洛树搜索(MCTS)的思想,通过模拟和评估不同的工具使用序列,构建一棵“工具树”,从而帮助Agent做出更明智的工具选择决策。通过双向剪枝,减少搜索空间,提高效率。

技术框架:ToolTree的整体框架包含以下几个主要阶段:1) 选择(Selection):从根节点开始,根据一定的策略(如UCT)选择一个子节点进行扩展。2) 扩展(Expansion):如果选择的节点不是叶子节点,则扩展一个新的子节点,代表一个新的工具选择。3) 模拟(Simulation):从新扩展的节点开始,模拟执行一系列的工具调用,直到达到终止条件。4) 反馈(Feedback):使用LLM对模拟执行的结果进行评估,得到一个奖励值,用于更新树中节点的价值。5) 双向剪枝(Bidirectional Pruning):在工具执行前和执行后,分别进行剪枝,移除不太有希望的分支。

关键创新:ToolTree的关键创新在于:1) 蒙特卡洛树搜索框架:将MCTS引入工具规划,能够探索更优的工具使用序列。2) 双阶段LLM评估:在工具执行前后都使用LLM进行评估,从而更准确地评估工具序列的价值。3) 双向剪枝机制:在工具执行前后都进行剪枝,能够有效地减少搜索空间,提高效率。

关键设计:ToolTree的关键设计包括:1) UCT策略:用于选择子节点的策略,平衡了探索和利用。2) LLM评估函数:用于评估工具序列的价值,需要设计合适的prompt和奖励函数。3) 剪枝阈值:用于控制剪枝的力度,需要根据具体任务进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

ToolTree在四个基准测试中进行了评估,包括开放集和封闭集工具规划任务。实验结果表明,ToolTree在性能上始终优于现有的工具规划方法,平均提升约10%。此外,ToolTree还保持了最高的效率,能够在较短的时间内完成工具规划任务。这些结果表明,ToolTree是一种有效的工具规划方法。

🎯 应用场景

ToolTree具有广泛的应用前景,可应用于自动化客服、智能家居控制、软件开发辅助等领域。通过更智能的工具规划,可以显著提升Agent在复杂任务中的表现,提高工作效率,降低人工干预的需求。未来,ToolTree可以进一步扩展到更多领域,例如机器人控制、自动驾驶等。

📄 摘要(原文)

Large Language Model (LLM) agents are increasingly applied to complex, multi-step tasks that require interaction with diverse external tools across various domains. However, current LLM agent tool planning methods typically rely on greedy, reactive tool selection strategies that lack foresight and fail to account for inter-tool dependencies. In this paper, we present ToolTree, a novel Monte Carlo tree search-inspired planning paradigm for tool planning. ToolTree explores possible tool usage trajectories using a dual-stage LLM evaluation and bidirectional pruning mechanism that enables the agent to make informed, adaptive decisions over extended tool-use sequences while pruning less promising branches before and after the tool execution. Empirical evaluations across both open-set and closed-set tool planning tasks on 4 benchmarks demonstrate that ToolTree consistently improves performance while keeping the highest efficiency, achieving an average gain of around 10\% compared to the state-of-the-art planning paradigm.