Tool Retrieval Bridge: Aligning Vague Instructions with Retriever Preferences via Bridge Model
作者: Kunfeng Chen, Luyao Zhuang, Fei Liao, Juhua Liu, Jian Wang, Bo Du
分类: cs.CL
发布日期: 2026-04-09
备注: 14 pages, 6 figures
🔗 代码/项目: GITHUB
💡 一句话要点
提出工具检索桥TRB,解决LLM在模糊指令下的工具检索问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 工具检索 大型语言模型 模糊指令 桥模型 指令重写 信息检索 VGToolBench
📋 核心要点
- 现有工具检索方法依赖于详细指令,与现实世界模糊指令存在差距,导致性能下降。
- 提出Tool Retrieval Bridge (TRB),通过桥模型将模糊指令转化为更具体的指令,弥合差距。
- 实验表明,TRB在多个检索设置下显著提升了工具检索性能,例如BM25的NDCG提升高达111.51%。
📝 摘要(中文)
工具学习已成为大型语言模型(LLMs)解决现实世界挑战的一种有前景的范例。由于工具数量庞大且更新不规律,因此选择所需工具子集的工具检索至关重要。然而,当前的工具检索方法通常基于包含过度详细指令(例如,特定API名称和参数)的学术基准,而现实世界的指令则更为模糊。这种差异会阻碍现实应用中的工具检索。在本文中,我们首先构建了一个新的基准VGToolBench,以模拟人类的模糊指令。基于此,我们进行了一系列初步分析,发现模糊指令确实损害了工具检索的性能。为此,我们提出了一种简单而有效的工具检索桥(TRB)方法,以提高模糊指令的工具检索性能。TRB的原理是引入一个桥模型,将模糊指令重写为更具体的指令,从而缓解模糊指令和检索器偏好之间的差距。我们在多个常用的检索设置下进行了广泛的实验,结果表明,TRB有效地缓解了模糊指令的歧义,同时在所有基线检索器中都提供了持续且显著的改进。例如,在TRB的帮助下,BM25实现了高达111.51%的相对改进,即平均NDCG得分从9.73提高到19.59。源代码和模型可在https://github.com/kfchenhn/TRB公开获取。
🔬 方法详解
问题定义:论文旨在解决大型语言模型在现实场景下,由于用户指令模糊不清,导致工具检索性能下降的问题。现有方法依赖于详细的API描述和参数,无法很好地处理真实世界中用户提供的模糊指令,导致检索结果不准确,影响工具学习的效果。
核心思路:论文的核心思路是引入一个“桥模型”,将模糊的用户指令转化为更具体、更详细的指令,从而更好地匹配检索器的偏好。通过这种方式,弥合了模糊指令和检索器之间的语义鸿沟,提高了检索的准确性。
技术框架:TRB方法包含两个主要阶段:首先,使用桥模型将模糊指令重写为更具体的指令。然后,使用重写后的指令进行工具检索。整体流程是:模糊指令 -> 桥模型 -> 具体指令 -> 检索器 -> 检索结果。桥模型可以是任何能够进行文本改写的模型,例如基于Transformer的模型。
关键创新:该方法最重要的创新点在于引入了“桥模型”的概念,通过指令重写来解决模糊指令带来的检索难题。与直接使用模糊指令进行检索的方法相比,TRB能够更好地利用检索器的偏好,提高检索的准确性。
关键设计:桥模型的选择和训练是关键。论文可能使用了预训练的语言模型,并在VGToolBench数据集上进行了微调,以使其更擅长将模糊指令转化为具体的API调用描述。损失函数可能包括重构损失和检索排序损失,以确保重写后的指令既能保留原始语义,又能提高检索性能。具体的参数设置和网络结构细节需要在论文原文中查找。
🖼️ 关键图片
📊 实验亮点
实验结果表明,TRB方法在VGToolBench基准测试中取得了显著的性能提升。例如,在BM25检索器上,TRB实现了高达111.51%的相对改进,将平均NDCG得分从9.73提高到19.59。此外,TRB在不同的基线检索器上均表现出一致的性能提升,证明了其有效性和通用性。
🎯 应用场景
该研究成果可应用于各种需要工具检索的场景,例如智能助手、自动化流程设计、API调用等。通过提高工具检索的准确性,可以显著提升LLM在现实世界任务中的表现,降低人工干预的需求,并加速工具学习的普及。未来,该方法可以扩展到其他类型的模糊输入,例如语音指令、图像描述等。
📄 摘要(原文)
Tool learning has emerged as a promising paradigm for large language models (LLMs) to address real-world challenges. Due to the extensive and irregularly updated number of tools, tool retrieval for selecting the desired tool subset is essential. However, current tool retrieval methods are usually based on academic benchmarks containing overly detailed instructions (e.g., specific API names and parameters), while real-world instructions are more vague. Such a discrepancy would hinder the tool retrieval in real-world applications. In this paper, we first construct a new benchmark, VGToolBench, to simulate human vague instructions. Based on this, we conduct a series of preliminary analyses and find that vague instructions indeed damage the performance of tool retrieval. To this end, we propose a simple-yet-effective Tool Retrieval Bridge (TRB) approach to boost the performance of tool retrieval for vague instructions. The principle of TRB is to introduce a bridge model to rewrite the vague instructions into more specific ones and alleviate the gap between vague instructions and retriever preferences.We conduct extensive experiments under multiple commonly used retrieval settings, and the results show that TRB effectively mitigates the ambiguity of vague instructions while delivering consistent and substantial improvements across all baseline retrievers. For example, with the help of TRB, BM25 achieves a relative improvement of up to 111.51%, i.e., increasing the average NDCG score from 9.73 to 19.59. The source code and models are publicly available at https://github.com/kfchenhn/TRB.