Enhancing Tool Retrieval with Iterative Feedback from Large Language Models

📄 arXiv: 2406.17465v2 📥 PDF

作者: Qiancheng Xu, Yongqi Li, Heming Xia, Wenjie Li

分类: cs.CL, cs.AI

发布日期: 2024-06-25 (更新: 2024-09-29)


💡 一句话要点

提出基于大语言模型迭代反馈的工具检索方法,提升复杂场景下的工具选择准确性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 工具学习 工具检索 大语言模型 迭代反馈 指令理解

📋 核心要点

  1. 现有工具学习方法难以应对实际场景中工具数量庞大且动态更新的挑战,需要更有效的工具检索机制。
  2. 论文提出利用大语言模型作为工具使用模型,通过迭代反馈来优化工具检索模型,弥合二者之间的差距。
  3. 实验结果表明,该方法在统一基准测试中,无论是在领域内还是跨领域评估,均取得了显著的性能提升。

📝 摘要(中文)

本文提出了一种利用大语言模型(LLM)迭代反馈来增强工具检索的方法。工具学习旨在利用外部工具来增强和扩展LLM的能力,并受到了广泛关注。现有方法表明,LLM可以通过上下文学习或微调有效地处理一定数量的工具。然而,在实际场景中,工具的数量通常是庞大且不规则更新的,因此需要专门的工具检索组件。工具检索面临着复杂的用户指令和工具描述,以及工具检索模型和工具使用模型之间的不一致等挑战。为了解决这些问题,本文提出利用来自LLM的迭代反馈来增强工具检索。具体来说,本文提示工具使用模型(即LLM)在多轮中为工具检索模型提供反馈,从而逐步提高工具检索器对指令和工具的理解,并缩小两个独立组件之间的差距。本文构建了一个统一而全面的基准来评估工具检索模型。大量的实验表明,本文提出的方法在领域内和跨领域评估中都取得了先进的性能。

🔬 方法详解

问题定义:论文旨在解决大规模工具场景下,工具检索的准确性和效率问题。现有方法在处理复杂指令和工具描述时表现不佳,且工具检索模型与工具使用模型之间存在偏差,导致检索结果与实际需求不符。

核心思路:论文的核心思路是利用大语言模型(LLM)作为工具使用模型,通过迭代反馈机制来优化工具检索模型。LLM能够理解复杂指令并评估工具的适用性,其反馈可以帮助检索模型更好地学习指令和工具之间的关联。

技术框架:整体框架包含工具检索模型和工具使用模型(LLM)。首先,工具检索模型根据用户指令检索候选工具;然后,LLM评估这些工具并提供反馈(例如,哪些工具更适合,为什么);最后,检索模型根据LLM的反馈更新其参数,并进行下一轮检索。这个过程迭代进行,直到检索结果满足要求或达到最大迭代次数。

关键创新:最重要的创新点在于引入了LLM的迭代反馈机制。这种机制使得工具检索模型能够从工具使用模型的角度学习,从而更好地理解用户意图和工具功能,并减少了两个模型之间的偏差。

关键设计:关键设计包括:1) 如何有效地提示LLM以获得有用的反馈;2) 如何将LLM的反馈融入到工具检索模型的训练过程中;3) 如何设计合适的损失函数来优化检索模型。具体的参数设置和网络结构取决于所使用的工具检索模型和LLM。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在构建的统一基准测试中取得了显著的性能提升。具体而言,在领域内和跨领域评估中,该方法均优于现有的工具检索方法。性能提升主要体现在检索准确率和召回率的提高,表明该方法能够更有效地检索到用户所需的工具。

🎯 应用场景

该研究成果可应用于智能助手、自动化流程设计、软件开发等领域。通过更准确地检索和推荐工具,可以提高工作效率,降低错误率,并扩展LLM的应用范围。未来,该方法有望应用于更复杂的任务,例如多步骤工具链的自动构建。

📄 摘要(原文)

Tool learning aims to enhance and expand large language models' (LLMs) capabilities with external tools, which has gained significant attention recently. Current methods have shown that LLMs can effectively handle a certain amount of tools through in-context learning or fine-tuning. However, in real-world scenarios, the number of tools is typically extensive and irregularly updated, emphasizing the necessity for a dedicated tool retrieval component. Tool retrieval is nontrivial due to the following challenges: 1) complex user instructions and tool descriptions; 2) misalignment between tool retrieval and tool usage models. To address the above issues, we propose to enhance tool retrieval with iterative feedback from the large language model. Specifically, we prompt the tool usage model, i.e., the LLM, to provide feedback for the tool retriever model in multi-round, which could progressively improve the tool retriever's understanding of instructions and tools and reduce the gap between the two standalone components. We build a unified and comprehensive benchmark to evaluate tool retrieval models. The extensive experiments indicate that our proposed approach achieves advanced performance in both in-domain evaluation and out-of-domain evaluation.