Retrieval Models Aren't Tool-Savvy: Benchmarking Tool Retrieval for Large Language Models

作者: Zhengliang Shi, Yuhan Wang, Lingyong Yan, Pengjie Ren, Shuaiqiang Wang, Dawei Yin, Zhaochun Ren

分类: cs.CL, cs.AI, cs.IR

发布日期: 2025-03-03 (更新: 2025-05-26)

备注: ACL 2025. Code: https://github.com/mangopy/tool-retrieval-benchmark

💡 一句话要点

提出ToolRet基准评测工具检索模型，并构建大规模训练数据集提升LLM工具使用能力。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 工具检索 大型语言模型 信息检索 基准测试 工具使用 训练数据集 人工智能

📋 核心要点

现有工具使用基准测试简化了工具检索环节，与真实场景存在差距，无法有效评估IR模型在工具检索中的性能。
论文提出ToolRet基准，包含多样化的检索任务和大规模工具语料库，更贴近实际应用场景，用于评估工具检索模型。
实验表明，现有IR模型在ToolRet上表现不佳，论文进一步构建大规模训练数据集，有效提升了IR模型的工具检索能力。

📝 摘要（中文）

本文旨在评估信息检索（IR）模型在大型语言模型（LLM）工具检索任务中的性能。由于工具使用型LLM的上下文长度有限，采用IR模型从大型工具集中选择有用工具至关重要。然而，IR模型在工具检索任务中的性能尚未得到充分探索。现有基准测试通过手动预先标注少量相关工具来简化此步骤，与实际场景相去甚远。因此，本文提出了ToolRet，一个包含7.6k多样化检索任务和43k工具语料库的异构工具检索基准。对六种模型进行了基准测试，结果表明，即使在传统IR基准测试中表现良好的模型，在ToolRet上的表现也很差，这降低了工具使用型LLM的任务通过率。进一步地，本文贡献了一个包含超过20万个实例的大规模训练数据集，显著优化了IR模型的工具检索能力。

🔬 方法详解

问题定义：论文旨在解决大型语言模型（LLM）在工具使用过程中，如何从海量工具集中准确检索到所需工具的问题。现有方法，特别是现有benchmark，通常采用人工标注少量相关工具的方式，这与实际应用场景严重不符，无法有效评估和提升工具检索模型的性能。现有IR模型在传统检索任务中表现良好，但在工具检索任务中性能不佳，限制了LLM工具使用的能力。

核心思路：论文的核心思路是构建一个更贴近真实场景的工具检索基准（ToolRet），并利用大规模训练数据来提升IR模型在工具检索任务中的性能。通过ToolRet，可以更准确地评估现有IR模型在工具检索任务中的表现，并为未来的研究提供更可靠的评估平台。大规模训练数据的引入，旨在让IR模型更好地理解工具的语义信息，从而提高检索的准确率。

技术框架：整体框架包括两个主要部分：ToolRet基准的构建和大规模训练数据的构建。ToolRet基准包含7.6k多样化的检索任务和43k工具语料库。大规模训练数据集包含超过20万个实例，用于训练IR模型。实验部分，论文对六种类型的模型在ToolRet上进行了基准测试，并评估了使用大规模训练数据训练后的模型性能。

关键创新：论文的关键创新在于提出了ToolRet基准，该基准更贴近真实场景，能够更准确地评估IR模型在工具检索任务中的性能。此外，大规模训练数据集的构建也是一个重要的创新，它为提升IR模型的工具检索能力提供了有效的数据支持。与现有方法相比，ToolRet更具挑战性，能够更好地反映IR模型在实际应用中的表现。

关键设计：ToolRet基准的设计考虑了多样化的检索任务，涵盖了不同的工具类型和应用场景。大规模训练数据集的构建采用了多种数据增强技术，以提高数据的多样性和泛化能力。在实验中，论文采用了多种评估指标，包括召回率、准确率等，以全面评估模型的性能。具体的参数设置和网络结构等技术细节在论文中进行了详细描述（未知）。

🖼️ 关键图片

📊 实验亮点

实验结果表明，即使在传统IR基准测试中表现良好的模型，在ToolRet上的表现也很差，这表明现有IR模型在工具检索任务中存在局限性。通过使用大规模训练数据集进行训练，IR模型的工具检索能力得到了显著提升，具体提升幅度在论文中进行了详细描述（未知）。

🎯 应用场景

该研究成果可应用于各种需要LLM使用工具的场景，例如智能助手、自动化流程、软件开发等。通过提高工具检索的准确率，可以显著提升LLM完成复杂任务的能力，降低人工干预的需求，提高工作效率。未来，该研究可以进一步扩展到更多领域，例如医疗、金融等，为各行业带来智能化升级。

📄 摘要（原文）

Tool learning aims to augment large language models (LLMs) with diverse tools, enabling them to act as agents for solving practical tasks. Due to the limited context length of tool-using LLMs, adopting information retrieval (IR) models to select useful tools from large toolsets is a critical initial step. However, the performance of IR models in tool retrieval tasks remains underexplored and unclear. Most tool-use benchmarks simplify this step by manually pre-annotating a small set of relevant tools for each task, which is far from the real-world scenarios. In this paper, we propose ToolRet, a heterogeneous tool retrieval benchmark comprising 7.6k diverse retrieval tasks, and a corpus of 43k tools, collected from existing datasets. We benchmark six types of models on ToolRet. Surprisingly, even the models with strong performance in conventional IR benchmarks, exhibit poor performance on ToolRet. This low retrieval quality degrades the task pass rate of tool-use LLMs. As a further step, we contribute a large-scale training dataset with over 200k instances, which substantially optimizes the tool retrieval ability of IR models.

Retrieval Models Aren't Tool-Savvy: Benchmarking Tool Retrieval for Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理