ProTIP: Progressive Tool Retrieval Improves Planning

作者: Raviteja Anantha, Bortik Bandyopadhyay, Anirudh Kashi, Sayantan Mahinder, Andrew W Hill, Srinivas Chappidi

分类: cs.IR, cs.AI, cs.LG

发布日期: 2023-12-16

备注: preprint version

💡 一句话要点

ProTIP：通过渐进式工具检索提升规划能力

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 工具检索 任务分解 对比学习 大型语言模型 规划 ToolBench 智能助手

📋 核心要点

现有工具检索方法在处理复杂规划任务时，要么缺乏灵活性，无法处理工具间的依赖关系，要么需要维护子任务与工具的严格对应关系。
ProTIP框架通过对比学习隐式地执行任务分解，无需显式的子任务标签，从而避免了对子任务-工具原子性对齐的严格要求。
实验结果表明，ProTIP在ToolBench数据集上显著优于基于ChatGPT的任务分解方法，在工具检索和计划生成方面均取得了显著提升。

📝 摘要（中文）

大型语言模型（LLMs）越来越多地被用于复杂的多步骤规划任务，其中工具检索（TR）步骤对于实现成功的结果至关重要。目前有两种主要的TR方法：单步检索（使用完整查询）和基于任务分解（TD）的顺序检索（将完整查询分割成离散的原子子任务）。单步检索缺乏处理“工具间依赖”的灵活性，而TD方法需要维护“子任务-工具原子性对齐”，因为工具箱可能会动态演变。为了解决这些限制，我们提出了渐进式工具检索以改进规划（ProTIP）框架。ProTIP是一个轻量级的、基于对比学习的框架，它隐式地执行TD，而无需显式的子任务标签，同时保持子任务-工具原子性。在ToolBench数据集上，ProTIP的性能显著优于基于ChatGPT任务分解的方法，在TR的Recall@K=10上实现了24%的提升，在计划生成的工具准确性上实现了41%的提升。

🔬 方法详解

问题定义：现有的大型语言模型在进行复杂多步骤规划时，依赖于工具检索（TR）来选择合适的工具。单步检索方法无法处理工具之间的依赖关系，而基于任务分解（TD）的顺序检索方法则需要维护子任务和工具之间的原子性对齐，这在工具箱动态变化时变得困难。因此，如何有效地进行工具检索，同时处理工具依赖和避免对严格的子任务标注的依赖，是一个关键问题。

核心思路：ProTIP的核心思路是利用对比学习，在没有显式子任务标签的情况下，隐式地学习任务分解。通过对比学习，模型能够学习到不同工具之间的关系，从而更好地处理工具依赖。同时，由于不需要显式的子任务标签，ProTIP避免了对子任务-工具原子性对齐的严格要求，使其更具灵活性。

技术框架：ProTIP框架主要包含以下几个模块：1) 输入编码模块，将任务描述和候选工具进行编码；2) 对比学习模块，通过对比学习损失函数，学习任务描述和工具之间的关系；3) 工具检索模块，根据学习到的关系，选择最合适的工具。整个流程是渐进式的，即在每一步规划中，都进行一次工具检索，并根据检索结果更新任务状态。

关键创新：ProTIP的关键创新在于使用对比学习进行隐式的任务分解，从而避免了对显式子任务标签的依赖。这种方法不仅提高了工具检索的准确性，还增强了模型的灵活性，使其能够更好地适应动态变化的工具箱。

关键设计：ProTIP使用对比学习损失函数来训练模型，该损失函数的目标是使相似的任务描述和工具之间的距离更近，而不相似的任务描述和工具之间的距离更远。具体的损失函数形式可以根据具体的任务进行调整。此外，ProTIP还使用了注意力机制来增强模型对任务描述和工具之间关系的理解。具体的网络结构和参数设置需要根据实验结果进行调整。

📊 实验亮点

ProTIP在ToolBench数据集上取得了显著的性能提升。与基于ChatGPT的任务分解方法相比，ProTIP在工具检索的Recall@K=10上实现了24%的提升，在计划生成的工具准确性上实现了41%的提升。这些结果表明，ProTIP能够更有效地进行工具检索，并生成更准确的计划。

🎯 应用场景

ProTIP框架可应用于各种需要复杂规划和工具使用的场景，例如智能助手、机器人控制、软件开发等。通过提高工具检索的准确性和效率，ProTIP可以帮助用户更有效地完成任务，并降低人工干预的需求。未来，ProTIP可以进一步扩展到处理更复杂的任务和工具，并与其他技术（如强化学习）相结合，以实现更智能的规划和控制。

📄 摘要（原文）

Large language models (LLMs) are increasingly employed for complex multi-step planning tasks, where the tool retrieval (TR) step is crucial for achieving successful outcomes. Two prevalent approaches for TR are single-step retrieval, which utilizes the complete query, and sequential retrieval using task decomposition (TD), where a full query is segmented into discrete atomic subtasks. While single-step retrieval lacks the flexibility to handle "inter-tool dependency," the TD approach necessitates maintaining "subtask-tool atomicity alignment," as the toolbox can evolve dynamically. To address these limitations, we introduce the Progressive Tool retrieval to Improve Planning (ProTIP) framework. ProTIP is a lightweight, contrastive learning-based framework that implicitly performs TD without the explicit requirement of subtask labels, while simultaneously maintaining subtask-tool atomicity. On the ToolBench dataset, ProTIP outperforms the ChatGPT task decomposition-based approach by a remarkable margin, achieving a 24% improvement in Recall@K=10 for TR and a 41% enhancement in tool accuracy for plan generation.

ProTIP: Progressive Tool Retrieval Improves Planning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册