MassTool: A Multi-Task Search-Based Tool Retrieval Framework for Large Language Models

📄 arXiv: 2507.00487v2 📥 PDF

作者: Jianghao Lin, Xinyuan Wang, Xinyi Dai, Menghui Zhu, Bo Chen, Ruiming Tang, Yong Yu, Weinan Zhang

分类: cs.IR, cs.CL

发布日期: 2025-07-01 (更新: 2025-07-02)

🔗 代码/项目: GITHUB


💡 一句话要点

MassTool:一种面向大语言模型的多任务搜索式工具检索框架

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 工具检索 多任务学习 图卷积网络 用户意图建模

📋 核心要点

  1. 现有工具检索方法侧重于工具表征,忽略了对用户查询意图的精准理解,导致检索效果受限。
  2. MassTool通过多任务学习框架,同时优化查询理解和工具检索,提升了检索的准确性和鲁棒性。
  3. 实验结果表明,MassTool在工具检索准确性方面表现出色,验证了其有效性。

📝 摘要(中文)

工具检索是使大型语言模型(LLM)能够有效与外部工具交互的关键组成部分。其目标是将海量工具精确过滤成一小部分候选工具,供下游工具增强型LLM使用。然而,现有方法主要侧重于优化工具表示,往往忽略了精确查询理解的重要性。为了解决这个问题,我们提出了MassTool,一个多任务搜索式框架,旨在提高查询表示和工具检索的准确性。MassTool采用双塔结构:一个工具使用检测塔,用于预测函数调用的需求;一个工具检索塔,利用以查询为中心的图卷积网络(QC-GCN)进行有效的查询-工具匹配。它还结合了基于搜索的用户意图建模(SUIM)来处理多样化和分布外的查询,以及自适应知识迁移(AdaKT)模块,用于高效的多任务学习。通过联合优化工具使用检测损失、列表式检索损失和对比正则化损失,MassTool建立了一个强大的双步顺序决策流程,用于精确的查询理解。大量实验证明了其在提高检索准确性方面的有效性。

🔬 方法详解

问题定义:现有的大语言模型工具检索方法主要关注工具本身的表示学习,而忽略了用户查询的多样性和复杂性,导致模型无法准确理解用户意图,从而影响检索效果。尤其是在面对分布外的查询时,现有方法的泛化能力较差。

核心思路:MassTool的核心思路是同时提升查询理解和工具检索能力。通过多任务学习,模型可以更好地捕捉用户意图,并将其与合适的工具进行匹配。利用搜索信息增强用户意图建模,提高模型对多样化查询的适应性。

技术框架:MassTool采用双塔结构,包含工具使用检测塔和工具检索塔。工具使用检测塔用于预测是否需要调用工具,工具检索塔则负责从候选工具集中选择最合适的工具。工具检索塔使用查询中心图卷积网络(QC-GCN)进行查询-工具匹配。此外,还包括基于搜索的用户意图建模(SUIM)模块和自适应知识迁移(AdaKT)模块。整体流程是一个双步顺序决策过程,首先判断是否需要工具,然后检索合适的工具。

关键创新:MassTool的关键创新在于:1) 提出了多任务学习框架,同时优化查询理解和工具检索;2) 引入了查询中心图卷积网络(QC-GCN),更好地捕捉查询和工具之间的关系;3) 提出了基于搜索的用户意图建模(SUIM)方法,增强了模型对多样化查询的适应性;4) 提出了自适应知识迁移(AdaKT)模块,提高了多任务学习的效率。

关键设计:MassTool使用三种损失函数进行联合优化:工具使用检测损失、列表式检索损失和对比正则化损失。工具使用检测损失采用交叉熵损失,列表式检索损失采用pairwise ranking loss,对比正则化损失用于增强查询和工具表示的区分性。QC-GCN的具体结构未知,SUIM模块利用搜索日志数据进行用户意图建模,AdaKT模块根据任务的难易程度自适应地调整知识迁移的权重。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,MassTool在工具检索准确性方面显著优于现有方法。具体而言,MassTool在多个数据集上取得了SOTA结果,并且在分布外查询上的表现也明显优于基线模型。代码已开源,方便研究人员复现和进一步研究。

🎯 应用场景

MassTool可应用于各种需要大型语言模型与外部工具交互的场景,例如智能助手、自动化流程、代码生成等。通过提高工具检索的准确性,可以显著提升这些应用的性能和用户体验。未来,该技术有望进一步扩展到更复杂的任务中,例如多轮对话、知识图谱推理等。

📄 摘要(原文)

Tool retrieval is a critical component in enabling large language models (LLMs) to interact effectively with external tools. It aims to precisely filter the massive tools into a small set of candidates for the downstream tool-augmented LLMs. However, most existing approaches primarily focus on optimizing tool representations, often neglecting the importance of precise query comprehension. To address this gap, we introduce MassTool, a multi-task search-based framework designed to enhance both query representation and tool retrieval accuracy. MassTool employs a two-tower architecture: a tool usage detection tower that predicts the need for function calls, and a tool retrieval tower that leverages a query-centric graph convolution network (QC-GCN) for effective query-tool matching. It also incorporates search-based user intent modeling (SUIM) to handle diverse and out-of-distribution queries, alongside an adaptive knowledge transfer (AdaKT) module for efficient multi-task learning. By jointly optimizing tool usage detection loss, list-wise retrieval loss, and contrastive regularization loss, MassTool establishes a robust dual-step sequential decision-making pipeline for precise query understanding. Extensive experiments demonstrate its effectiveness in improving retrieval accuracy. Our code is available at https://github.com/wxydada/MassTool.