ProTIP: Progressive Tool Retrieval Improves Planning

📄 arXiv: 2312.10332v1 📥 PDF

作者: Raviteja Anantha, Bortik Bandyopadhyay, Anirudh Kashi, Sayantan Mahinder, Andrew W Hill, Srinivas Chappidi

分类: cs.IR, cs.AI, cs.LG

发布日期: 2023-12-16

备注: preprint version


💡 一句话要点

ProTIP:通过渐进式工具检索提升规划能力

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 工具检索 任务分解 对比学习 大型语言模型 规划 ToolBench 智能助手

📋 核心要点

  1. 现有工具检索方法在处理复杂规划任务时,要么缺乏灵活性,无法处理工具间的依赖关系,要么需要维护子任务与工具的严格对应关系。
  2. ProTIP框架通过对比学习隐式地执行任务分解,无需显式的子任务标签,从而避免了对子任务-工具原子性对齐的严格要求。
  3. 实验结果表明,ProTIP在ToolBench数据集上显著优于基于ChatGPT的任务分解方法,在工具检索和计划生成方面均取得了显著提升。

📝 摘要(中文)

大型语言模型(LLMs)越来越多地被用于复杂的多步骤规划任务,其中工具检索(TR)步骤对于实现成功的结果至关重要。目前有两种主要的TR方法:单步检索(使用完整查询)和基于任务分解(TD)的顺序检索(将完整查询分割成离散的原子子任务)。单步检索缺乏处理“工具间依赖”的灵活性,而TD方法需要维护“子任务-工具原子性对齐”,因为工具箱可能会动态演变。为了解决这些限制,我们提出了渐进式工具检索以改进规划(ProTIP)框架。ProTIP是一个轻量级的、基于对比学习的框架,它隐式地执行TD,而无需显式的子任务标签,同时保持子任务-工具原子性。在ToolBench数据集上,ProTIP的性能显著优于基于ChatGPT任务分解的方法,在TR的Recall@K=10上实现了24%的提升,在计划生成的工具准确性上实现了41%的提升。

🔬 方法详解

问题定义:现有的大型语言模型在进行复杂多步骤规划时,依赖于工具检索(TR)来选择合适的工具。单步检索方法无法处理工具之间的依赖关系,而基于任务分解(TD)的顺序检索方法则需要维护子任务和工具之间的原子性对齐,这在工具箱动态变化时变得困难。因此,如何有效地进行工具检索,同时处理工具依赖和避免对严格的子任务标注的依赖,是一个关键问题。

核心思路:ProTIP的核心思路是利用对比学习,在没有显式子任务标签的情况下,隐式地学习任务分解。通过对比学习,模型能够学习到不同工具之间的关系,从而更好地处理工具依赖。同时,由于不需要显式的子任务标签,ProTIP避免了对子任务-工具原子性对齐的严格要求,使其更具灵活性。

技术框架:ProTIP框架主要包含以下几个模块:1) 输入编码模块,将任务描述和候选工具进行编码;2) 对比学习模块,通过对比学习损失函数,学习任务描述和工具之间的关系;3) 工具检索模块,根据学习到的关系,选择最合适的工具。整个流程是渐进式的,即在每一步规划中,都进行一次工具检索,并根据检索结果更新任务状态。

关键创新:ProTIP的关键创新在于使用对比学习进行隐式的任务分解,从而避免了对显式子任务标签的依赖。这种方法不仅提高了工具检索的准确性,还增强了模型的灵活性,使其能够更好地适应动态变化的工具箱。

关键设计:ProTIP使用对比学习损失函数来训练模型,该损失函数的目标是使相似的任务描述和工具之间的距离更近,而不相似的任务描述和工具之间的距离更远。具体的损失函数形式可以根据具体的任务进行调整。此外,ProTIP还使用了注意力机制来增强模型对任务描述和工具之间关系的理解。具体的网络结构和参数设置需要根据实验结果进行调整。

📊 实验亮点

ProTIP在ToolBench数据集上取得了显著的性能提升。与基于ChatGPT的任务分解方法相比,ProTIP在工具检索的Recall@K=10上实现了24%的提升,在计划生成的工具准确性上实现了41%的提升。这些结果表明,ProTIP能够更有效地进行工具检索,并生成更准确的计划。

🎯 应用场景

ProTIP框架可应用于各种需要复杂规划和工具使用的场景,例如智能助手、机器人控制、软件开发等。通过提高工具检索的准确性和效率,ProTIP可以帮助用户更有效地完成任务,并降低人工干预的需求。未来,ProTIP可以进一步扩展到处理更复杂的任务和工具,并与其他技术(如强化学习)相结合,以实现更智能的规划和控制。

📄 摘要(原文)

Large language models (LLMs) are increasingly employed for complex multi-step planning tasks, where the tool retrieval (TR) step is crucial for achieving successful outcomes. Two prevalent approaches for TR are single-step retrieval, which utilizes the complete query, and sequential retrieval using task decomposition (TD), where a full query is segmented into discrete atomic subtasks. While single-step retrieval lacks the flexibility to handle "inter-tool dependency," the TD approach necessitates maintaining "subtask-tool atomicity alignment," as the toolbox can evolve dynamically. To address these limitations, we introduce the Progressive Tool retrieval to Improve Planning (ProTIP) framework. ProTIP is a lightweight, contrastive learning-based framework that implicitly performs TD without the explicit requirement of subtask labels, while simultaneously maintaining subtask-tool atomicity. On the ToolBench dataset, ProTIP outperforms the ChatGPT task decomposition-based approach by a remarkable margin, achieving a 24% improvement in Recall@K=10 for TR and a 41% enhancement in tool accuracy for plan generation.