Improving Tool Retrieval by Leveraging Large Language Models for Query Generation

作者: Mohammad Kachuee, Sarthak Ahuja, Vaibhav Kumar, Puyang Xu, Xiaohu Liu

分类: cs.IR, cs.AI, cs.CL

发布日期: 2024-11-17

期刊: COLING 2025

💡 一句话要点

利用大型语言模型生成查询以改进工具检索

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 工具检索 查询生成 上下文学习 语义检索

📋 核心要点

现有工具检索方法，如基于频率匹配或语义嵌入，在处理复杂用户请求时缺乏足够的上下文理解和常识推理能力。
该论文提出利用大型语言模型（LLM）生成检索查询，从而将LLM的理解能力融入到工具检索过程中。
实验结果表明，通过LLM生成查询，可以显著提升工具检索的准确性，尤其是在处理未见过的工具时。

📝 摘要（中文）

大型语言模型（LLM）使用工具是一种很有前景的途径，可以将它们的应用范围扩展到语言或对话设置之外。工具的数量可以扩展到数千个，因为它们能够访问感官信息、获取更新的事实知识或在现实世界中执行操作。在这种情况下，通过在提示中提供一个简短的相关工具列表来进行上下文学习是一种可行的方法。为了检索相关工具，已经提出了各种方法，从简单的基于频率的匹配到基于密集嵌入的语义检索。然而，这些方法缺乏为复杂用户请求检索正确工具所需的上下文和常识理解。我们没有增加检索组件本身的复杂性，而是建议利用LLM的理解来生成检索查询。然后，生成的查询被嵌入，并用于通过最近邻搜索找到最相关的工具。我们研究了三种查询生成方法：零样本提示、在工具描述上进行监督微调，以及通过迭代优化衡量检索性能的奖励指标来进行对齐学习。通过对涵盖复杂和多工具场景的数据集进行广泛的实验，我们表明，利用LLM进行查询生成可以改进领域内（已见过的工具）和领域外（未见过的工具）设置的检索。

🔬 方法详解

问题定义：现有工具检索方法在面对复杂的用户请求时，难以准确理解用户的意图，导致检索结果不佳。简单的频率匹配无法捕捉语义信息，而基于嵌入的方法又缺乏足够的上下文理解能力，尤其是在工具数量庞大时，检索效率和准确性都会受到影响。

核心思路：该论文的核心思路是利用大型语言模型（LLM）强大的语言理解和生成能力，将用户的复杂请求转化为更精确的检索查询。通过LLM生成的查询能够更好地表达用户的真实意图，从而提高检索的准确率。

技术框架：该方法主要包含以下几个阶段：1) 用户输入复杂请求；2) 利用LLM生成检索查询；3) 将生成的查询嵌入到向量空间；4) 使用最近邻搜索在工具库中找到最相关的工具。其中，LLM查询生成是核心模块。

关键创新：该方法最重要的创新在于将LLM引入到工具检索的查询生成环节。与直接使用用户原始请求进行检索相比，利用LLM生成的查询能够更好地捕捉用户的意图，从而提高检索的准确性。此外，该方法没有直接增加检索组件的复杂度，而是通过优化查询来提升检索效果。

关键设计：论文研究了三种查询生成方法：零样本提示（zero-shot prompting）、监督微调（supervised fine-tuning）和对齐学习（alignment learning）。监督微调是在工具描述上进行微调，对齐学习则是通过迭代优化奖励指标来提升检索性能。具体的技术细节，如LLM的选择、嵌入模型的选择、损失函数的设计等，论文中可能有所涉及，但摘要中未详细说明。

🖼️ 关键图片

📊 实验亮点

该论文通过实验证明，利用LLM生成查询可以显著提升工具检索的准确性。实验结果表明，该方法在领域内（已见过的工具）和领域外（未见过的工具）的设置下均取得了良好的效果，尤其是在处理未见过的工具时，提升效果更为明显。具体的性能数据和对比基线需要在论文正文中查找。

🎯 应用场景

该研究成果可广泛应用于需要大量工具支持的智能系统中，例如智能助手、自动化运维平台、机器人控制系统等。通过提升工具检索的准确性，可以显著提高这些系统的效率和智能化水平，并为用户提供更便捷、更智能的服务。未来，该方法有望应用于更广泛的领域，例如智能家居、智能医疗等。

📄 摘要（原文）

Using tools by Large Language Models (LLMs) is a promising avenue to extend their reach beyond language or conversational settings. The number of tools can scale to thousands as they enable accessing sensory information, fetching updated factual knowledge, or taking actions in the real world. In such settings, in-context learning by providing a short list of relevant tools in the prompt is a viable approach. To retrieve relevant tools, various approaches have been suggested, ranging from simple frequency-based matching to dense embedding-based semantic retrieval. However, such approaches lack the contextual and common-sense understanding required to retrieve the right tools for complex user requests. Rather than increasing the complexity of the retrieval component itself, we propose leveraging LLM understanding to generate a retrieval query. Then, the generated query is embedded and used to find the most relevant tools via a nearest-neighbor search. We investigate three approaches for query generation: zero-shot prompting, supervised fine-tuning on tool descriptions, and alignment learning by iteratively optimizing a reward metric measuring retrieval performance. By conducting extensive experiments on a dataset covering complex and multi-tool scenarios, we show that leveraging LLMs for query generation improves the retrieval for in-domain (seen tools) and out-of-domain (unseen tools) settings.

Improving Tool Retrieval by Leveraging Large Language Models for Query Generation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理