MassTool: A Multi-Task Search-Based Tool Retrieval Framework for Large Language Models

作者: Jianghao Lin, Xinyuan Wang, Xinyi Dai, Menghui Zhu, Bo Chen, Ruiming Tang, Yong Yu, Weinan Zhang

分类: cs.IR, cs.CL

发布日期: 2025-07-01 (更新: 2025-07-02)

🔗 代码/项目: GITHUB

💡 一句话要点

MassTool：一种面向大语言模型的多任务搜索式工具检索框架

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 工具检索 多任务学习 图卷积网络 用户意图建模

📋 核心要点

现有工具检索方法侧重于工具表征，忽略了对用户查询意图的精准理解，导致检索效果受限。
MassTool通过多任务学习框架，同时优化查询理解和工具检索，提升了检索的准确性和鲁棒性。
实验结果表明，MassTool在工具检索准确性方面表现出色，验证了其有效性。

📝 摘要（中文）

工具检索是使大型语言模型（LLM）能够有效与外部工具交互的关键组成部分。其目标是将海量工具精确过滤成一小部分候选工具，供下游工具增强型LLM使用。然而，现有方法主要侧重于优化工具表示，往往忽略了精确查询理解的重要性。为了解决这个问题，我们提出了MassTool，一个多任务搜索式框架，旨在提高查询表示和工具检索的准确性。MassTool采用双塔结构：一个工具使用检测塔，用于预测函数调用的需求；一个工具检索塔，利用以查询为中心的图卷积网络（QC-GCN）进行有效的查询-工具匹配。它还结合了基于搜索的用户意图建模（SUIM）来处理多样化和分布外的查询，以及自适应知识迁移（AdaKT）模块，用于高效的多任务学习。通过联合优化工具使用检测损失、列表式检索损失和对比正则化损失，MassTool建立了一个强大的双步顺序决策流程，用于精确的查询理解。大量实验证明了其在提高检索准确性方面的有效性。

🔬 方法详解

问题定义：现有的大语言模型工具检索方法主要关注工具本身的表示学习，而忽略了用户查询的多样性和复杂性，导致模型无法准确理解用户意图，从而影响检索效果。尤其是在面对分布外的查询时，现有方法的泛化能力较差。

核心思路：MassTool的核心思路是同时提升查询理解和工具检索能力。通过多任务学习，模型可以更好地捕捉用户意图，并将其与合适的工具进行匹配。利用搜索信息增强用户意图建模，提高模型对多样化查询的适应性。

技术框架：MassTool采用双塔结构，包含工具使用检测塔和工具检索塔。工具使用检测塔用于预测是否需要调用工具，工具检索塔则负责从候选工具集中选择最合适的工具。工具检索塔使用查询中心图卷积网络（QC-GCN）进行查询-工具匹配。此外，还包括基于搜索的用户意图建模（SUIM）模块和自适应知识迁移（AdaKT）模块。整体流程是一个双步顺序决策过程，首先判断是否需要工具，然后检索合适的工具。

关键创新：MassTool的关键创新在于：1) 提出了多任务学习框架，同时优化查询理解和工具检索；2) 引入了查询中心图卷积网络（QC-GCN），更好地捕捉查询和工具之间的关系；3) 提出了基于搜索的用户意图建模（SUIM）方法，增强了模型对多样化查询的适应性；4) 提出了自适应知识迁移（AdaKT）模块，提高了多任务学习的效率。

关键设计：MassTool使用三种损失函数进行联合优化：工具使用检测损失、列表式检索损失和对比正则化损失。工具使用检测损失采用交叉熵损失，列表式检索损失采用pairwise ranking loss，对比正则化损失用于增强查询和工具表示的区分性。QC-GCN的具体结构未知，SUIM模块利用搜索日志数据进行用户意图建模，AdaKT模块根据任务的难易程度自适应地调整知识迁移的权重。

🖼️ 关键图片

📊 实验亮点

实验结果表明，MassTool在工具检索准确性方面显著优于现有方法。具体而言，MassTool在多个数据集上取得了SOTA结果，并且在分布外查询上的表现也明显优于基线模型。代码已开源，方便研究人员复现和进一步研究。

🎯 应用场景

MassTool可应用于各种需要大型语言模型与外部工具交互的场景，例如智能助手、自动化流程、代码生成等。通过提高工具检索的准确性，可以显著提升这些应用的性能和用户体验。未来，该技术有望进一步扩展到更复杂的任务中，例如多轮对话、知识图谱推理等。

📄 摘要（原文）

Tool retrieval is a critical component in enabling large language models (LLMs) to interact effectively with external tools. It aims to precisely filter the massive tools into a small set of candidates for the downstream tool-augmented LLMs. However, most existing approaches primarily focus on optimizing tool representations, often neglecting the importance of precise query comprehension. To address this gap, we introduce MassTool, a multi-task search-based framework designed to enhance both query representation and tool retrieval accuracy. MassTool employs a two-tower architecture: a tool usage detection tower that predicts the need for function calls, and a tool retrieval tower that leverages a query-centric graph convolution network (QC-GCN) for effective query-tool matching. It also incorporates search-based user intent modeling (SUIM) to handle diverse and out-of-distribution queries, alongside an adaptive knowledge transfer (AdaKT) module for efficient multi-task learning. By jointly optimizing tool usage detection loss, list-wise retrieval loss, and contrastive regularization loss, MassTool establishes a robust dual-step sequential decision-making pipeline for precise query understanding. Extensive experiments demonstrate its effectiveness in improving retrieval accuracy. Our code is available at https://github.com/wxydada/MassTool.

MassTool: A Multi-Task Search-Based Tool Retrieval Framework for Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理