RaTA-Tool: Retrieval-based Tool Selection with Multimodal Large Language Models

📄 arXiv: 2604.14951v1 📥 PDF

作者: Gabriele Mattioli, Evelyn Turri, Sara Sarto, Lorenzo Baraldi, Marcella Cornia, Lorenzo Baraldi, Rita Cucchiara

分类: cs.CV, cs.AI, cs.CL, cs.MM

发布日期: 2026-04-16

备注: ICPR 2026


💡 一句话要点

RaTA-Tool:基于检索的多模态大语言模型工具选择框架

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 工具选择 大语言模型 检索式学习 开放世界 直接偏好优化 Hugging Face

📋 核心要点

  1. 现有工具使用方法主要局限于文本输入和闭合世界环境,难以解释多模态用户指令,且无法泛化到训练中未见过的工具。
  2. RaTA-Tool将多模态查询转化为结构化任务描述,通过检索匹配工具描述,实现开放世界中无需重新训练的工具选择。
  3. 实验表明,RaTA-Tool显著提升了工具选择性能,尤其是在开放世界和多模态场景下,验证了方法的有效性。

📝 摘要(中文)

本文提出RaTA-Tool,一个用于开放世界多模态工具选择的新框架。该方法不学习用户查询到固定工具标识符的直接映射,而是利用多模态大语言模型(MLLM)将多模态查询转换为结构化的任务描述,并通过匹配该描述与语义丰富的、机器可读的工具描述来检索最合适的工具。这种基于检索的公式自然支持扩展到新工具而无需重新训练。为了进一步提高任务描述和工具选择之间的一致性,本文还结合了使用直接偏好优化(DPO)的基于偏好的优化阶段。此外,本文还引入了第一个用于开放世界多模态工具使用的数据集,其中包含源自Hugging Face模型卡的标准化工具描述。大量实验表明,该方法显著提高了工具选择性能,尤其是在开放世界多模态场景中。

🔬 方法详解

问题定义:现有工具学习方法在处理多模态输入和开放世界场景时存在局限性。它们通常依赖于文本输入,并且无法泛化到训练期间未见过的工具。这限制了AI系统在复杂任务中的应用,因为现实世界的任务往往涉及多模态信息和不断涌现的新工具。

核心思路:RaTA-Tool的核心思路是将工具选择问题转化为一个检索问题。通过将多模态用户查询转化为结构化的任务描述,并利用语义相似度匹配,从一个包含丰富工具描述的数据库中检索最合适的工具。这种方法避免了直接学习查询到工具的映射,从而实现了对新工具的泛化能力。

技术框架:RaTA-Tool框架包含以下几个主要模块:1) 多模态查询编码器:使用MLLM将多模态用户查询编码为任务描述。2) 工具描述数据库:包含机器可读的工具描述,例如来自Hugging Face模型卡的描述。3) 检索模块:基于任务描述和工具描述之间的语义相似度,检索最合适的工具。4) 偏好优化模块:使用DPO进一步优化任务描述和工具选择之间的一致性。

关键创新:RaTA-Tool的关键创新在于其基于检索的工具选择方法。与传统的直接映射方法相比,该方法具有更好的泛化能力和可扩展性,能够处理开放世界中的新工具。此外,使用DPO进行偏好优化进一步提高了工具选择的准确性。

关键设计:RaTA-Tool使用MLLM(具体模型未知)作为多模态查询编码器,将用户查询转化为结构化的任务描述。工具描述数据库中的工具描述来自Hugging Face模型卡,包含工具的功能、输入输出格式等信息。检索模块使用余弦相似度等方法计算任务描述和工具描述之间的语义相似度。DPO模块使用用户偏好数据(未知如何获取)来优化MLLM的输出,使其更符合用户的期望。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,RaTA-Tool在工具选择任务中取得了显著的性能提升,尤其是在开放世界和多模态场景下。具体提升幅度未知,但论文强调了其在处理未见过的工具和多模态输入方面的优势。此外,该论文还贡献了一个新的多模态工具使用数据集,为该领域的研究提供了宝贵资源。

🎯 应用场景

RaTA-Tool可应用于各种需要工具使用的场景,例如智能助手、自动化流程、机器人控制等。通过赋予AI系统调用外部工具的能力,可以解决更复杂的任务,提高工作效率和智能化水平。未来,该技术有望在工业自动化、医疗诊断、科研探索等领域发挥重要作用。

📄 摘要(原文)

Tool learning with foundation models aims to endow AI systems with the ability to invoke external resources -- such as APIs, computational utilities, and specialized models -- to solve complex tasks beyond the reach of standalone language generation. While recent advances in Large Language Models (LLMs) and Multimodal Large Language Models (MLLMs) have expanded their reasoning and perception capabilities, existing tool-use methods are predominantly limited to text-only inputs and closed-world settings. Consequently, they struggle to interpret multimodal user instructions and cannot generalize to tools unseen during training. In this work, we introduce RaTA-Tool, a novel framework for open-world multimodal tool selection. Rather than learning direct mappings from user queries to fixed tool identifiers, our approach enables an MLLM to convert a multimodal query into a structured task description and subsequently retrieve the most appropriate tool by matching this representation against semantically rich, machine-readable tool descriptions. This retrieval-based formulation naturally supports extensibility to new tools without retraining. To further improve alignment between task descriptions and tool selection, we incorporate a preference-based optimization stage using Direct Preference Optimization (DPO). To support research in this setting, we also introduce the first dataset for open-world multimodal tool use, featuring standardized tool descriptions derived from Hugging Face model cards. Extensive experiments demonstrate that our approach significantly improves tool-selection performance, particularly in open-world, multimodal scenarios.