ToolPlanner: A Tool Augmented LLM for Multi Granularity Instructions with Path Planning and Feedback

作者: Qinzhuo Wu, Wei Liu, Jian Luan, Bin Wang

分类: cs.CL, cs.AI

发布日期: 2024-09-23 (更新: 2024-11-04)

💡 一句话要点

ToolPlanner：通过工具增强的LLM，利用多粒度指令、路径规划和反馈机制

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 工具增强LLM 多粒度指令 路径规划 强化学习 人机协作

📋 核心要点

现有工具增强的LLM在处理真实用户指令时存在差距，因为它们通常在包含API细节的指令上训练。
ToolPlanner通过构建包含语句和类别级别指令的MGToolBench数据集，并采用两阶段强化学习框架来解决上述问题。
实验结果表明，ToolPlanner在匹配率、通过率和胜率方面显著优于SOTA模型，并且更符合用户习惯。

📝 摘要（中文）

本文提出了一种工具增强的LLM框架，旨在解决现有模型在处理真实用户指令时存在的差距。现有模型通常在过于详细的指令（包含API名称或参数）上训练，而真实用户通常不会明确提及这些API细节。为了解决这个问题，作者构建了一个名为MGToolBench的训练数据集，该数据集包含语句和类别级别的指令，以更好地反映真实场景。此外，作者提出了ToolPlanner，一个两阶段强化学习框架，利用路径规划和两种反馈机制来增强LLM的任务完成和指令遵循能力。实验结果表明，与SOTA模型相比，ToolPlanner在匹配率、通过率和胜率方面分别显著提高了26.8%、20.2%和5.6%。人工评估验证了多粒度指令可以更好地与用户的使用习惯对齐。数据和代码将在接受后发布。

🔬 方法详解

问题定义：现有工具增强的LLM通常在包含API名称和参数等过于详细的指令上进行训练，这与真实用户的使用习惯不符，导致模型在实际应用中表现不佳。此外，现有方法通常忽略交互过程是否遵循指令，导致模型难以完成复杂任务。

核心思路：ToolPlanner的核心思路是构建一个更贴近真实用户指令的数据集（MGToolBench），并利用强化学习框架来训练LLM，使其能够更好地理解和执行多粒度指令。通过路径规划和反馈机制，引导LLM选择合适的工具和参数，最终完成任务。

技术框架：ToolPlanner是一个两阶段的强化学习框架。第一阶段是路径规划阶段，LLM根据指令生成一个工具调用序列（路径）。第二阶段是执行阶段，LLM按照规划的路径与外部工具进行交互，并根据反馈调整其行为。框架包含两个关键的反馈机制：一个是任务完成反馈，用于奖励成功完成任务的LLM；另一个是指令遵循反馈，用于惩罚偏离指令的LLM。

关键创新：ToolPlanner的关键创新在于：1) 提出了多粒度指令的概念，并构建了相应的MGToolBench数据集，更贴近真实用户的使用习惯。2) 引入了路径规划机制，使LLM能够更好地规划工具调用序列。3) 设计了两种反馈机制，分别用于奖励任务完成和惩罚指令偏离，从而提高了LLM的任务完成和指令遵循能力。

关键设计：MGToolBench数据集包含语句级别和类别级别的指令，允许模型学习不同粒度的指令。路径规划阶段使用Transformer模型来预测工具调用序列。强化学习采用策略梯度方法，任务完成反馈基于任务是否成功完成，指令遵循反馈基于LLM的行动是否符合指令的要求。具体损失函数的设计未知。

🖼️ 关键图片

📊 实验亮点

实验结果表明，ToolPlanner在三个关键指标上显著优于SOTA模型：匹配率提高了26.8%，通过率提高了20.2%，胜率提高了5.6%。这些数据表明，ToolPlanner在任务完成和指令遵循方面都取得了显著的提升。人工评估也验证了多粒度指令可以更好地与用户的使用习惯对齐。

🎯 应用场景

ToolPlanner具有广泛的应用前景，可以应用于智能助手、自动化流程、机器人控制等领域。通过增强LLM的工具使用能力，可以实现更智能、更高效的任务自动化，例如自动预订机票、自动生成报告、自动控制机器人完成复杂任务等。该研究有助于推动人机协作的发展，提高生产效率。

📄 摘要（原文）

Recently, tool-augmented LLMs have gained increasing attention. Given an instruction, tool-augmented LLMs can interact with various external tools in multiple rounds and provide a final answer. However, previous LLMs were trained on overly detailed instructions, which included API names or parameters, while real users would not explicitly mention these API details. This leads to a gap between trained LLMs and real-world scenarios. In addition, most works ignore whether the interaction process follows the instruction. To address these issues, we constructed a training dataset called MGToolBench, which contains statement and category-level instructions to better reflect real-world scenarios. In addition, we propose ToolPlanner, a two-stage reinforcement learning framework that utilizes path planning and two feedback mechanisms to enhance the LLM's task completion and instruction-following capabilities. Experimental results show that ToolPlanner significantly improves the Match Rate, Pass Rate and Win Rate by 26.8%, 20.2%, and 5.6% compared to the SOTA model. Human evaluation verifies that the multi-granularity instructions can better align with users' usage habits. Our data and code will be released upon acceptance.

ToolPlanner: A Tool Augmented LLM for Multi Granularity Instructions with Path Planning and Feedback

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理