ToolOmni: Enabling Open-World Tool Use via Agentic learning with Proactive Retrieval and Grounded Execution
作者: Shouzheng Huang, Meishan Zhang, Baotian Hu, Min Zhang
分类: cs.CL
发布日期: 2026-04-15
备注: 19 pages, 9 figures, 9 tables, accepted to ACL 2026
💡 一句话要点
ToolOmni:通过主动检索和具身执行的 Agentic 学习实现开放世界工具使用
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 开放世界工具使用 大型语言模型 Agentic学习 主动检索 具身执行 解耦多目标优化 冷启动学习
📋 核心要点
- 现有方法在开放世界工具使用中,难以将用户意图与工具语义对齐,且泛化能力不足,导致检索和执行准确性欠佳。
- ToolOmni通过主动检索和具身执行的agentic框架,在推理循环中使LLM能够进行开放世界工具使用。
- 实验表明,ToolOmni在检索和执行方面均达到SOTA,端到端执行成功率提升10.8%,并展现出卓越的鲁棒性和泛化能力。
📝 摘要(中文)
大型语言模型(LLMs)通过利用外部工具来增强其解决问题的能力。然而,在具有海量且不断发展的工具库的开放世界场景中,现有方法依赖于静态嵌入检索或工具的参数记忆,难以将用户意图与工具语义对齐,或泛化到未见过的工具,导致开放世界工具检索和执行的准确性欠佳。为了解决这些问题,我们提出了ToolOmni,一个统一的agentic框架,通过在推理循环中进行主动检索和具身执行,使LLM能够进行开放世界工具使用。首先,我们构建了一个冷启动多轮交互数据集,通过监督微调(SFT)来灌输基础的agentic能力。然后,我们引入了基于解耦多目标GRPO算法的开放世界工具学习,该算法同时优化LLM在在线环境中的工具检索准确性和执行效力。大量的实验表明,ToolOmni在检索和执行方面都达到了最先进的性能,在端到端执行成功率方面超过了强大的基线,提升了+10.8%,同时表现出卓越的鲁棒性和泛化能力。
🔬 方法详解
问题定义:论文旨在解决开放世界场景下,大型语言模型(LLMs)如何有效利用大量且不断演化的外部工具的问题。现有方法,如静态嵌入检索或参数记忆,无法很好地将用户意图与工具语义对齐,也难以泛化到未见过的工具,导致工具检索和执行的准确率较低。
核心思路:ToolOmni的核心思路是构建一个统一的agentic框架,通过主动检索和具身执行,使LLM能够在推理循环中有效地利用外部工具。该框架通过学习agentic能力,并优化工具检索和执行的效力,从而提高LLM在开放世界工具使用中的性能。
技术框架:ToolOmni框架包含以下主要模块:1) 冷启动多轮交互数据集构建,用于通过监督微调(SFT)训练LLM的基础agentic能力;2) 基于解耦多目标GRPO算法的开放世界工具学习,用于同时优化LLM在在线环境中的工具检索准确性和执行效力;3) 推理循环,在循环中进行主动检索和具身执行,从而实现开放世界工具使用。
关键创新:ToolOmni的关键创新在于:1) 提出了一个统一的agentic框架,能够有效地利用外部工具;2) 引入了解耦多目标GRPO算法,能够同时优化LLM的工具检索准确性和执行效力;3) 构建了一个冷启动多轮交互数据集,用于训练LLM的基础agentic能力。与现有方法相比,ToolOmni能够更好地将用户意图与工具语义对齐,并具有更强的泛化能力。
关键设计:ToolOmni的关键设计包括:1) 冷启动数据集的设计,旨在覆盖各种用户意图和工具使用场景;2) 解耦多目标GRPO算法的设计,旨在平衡工具检索准确性和执行效力;3) 推理循环的设计,旨在模拟人类使用工具解决问题的过程。具体的参数设置、损失函数、网络结构等技术细节在论文中进行了详细描述。
🖼️ 关键图片
📊 实验亮点
ToolOmni在实验中取得了显著的性能提升,在端到端执行成功率方面超过了强大的基线,提升了+10.8%。这表明ToolOmni能够有效地解决开放世界工具使用中的挑战,并具有很强的实用价值。实验结果还表明,ToolOmni具有卓越的鲁棒性和泛化能力。
🎯 应用场景
ToolOmni具有广泛的应用前景,例如智能助手、自动化运维、科学研究等领域。它可以帮助用户更高效地利用各种工具,解决复杂的问题。未来,ToolOmni有望成为构建通用人工智能的重要组成部分,推动人工智能技术的发展。
📄 摘要(原文)
Large Language Models (LLMs) enhance their problem-solving capability by utilizing external tools. However, in open-world scenarios with massive and evolving tool repositories, existing methods relying on static embedding retrieval or parameter memorization of tools struggle to align user intent with tool semantics or generalize to unseen tools, respectively, leading to suboptimal accuracy of open-world tool retrieval and execution. To address these, we present ToolOmni, a unified agentic framework that enables LLMs for open-world tool use by proactive retrieval and grounded execution within a reasoning loop. First, we construct a cold-start multi-turn interaction dataset to instill foundational agentic capabilities via Supervised Fine-Tuning (SFT). Then, we introduce open-world tool learning based on a Decoupled Multi-Objective GRPO algorithm, which simultaneously optimizes LLMs for both tool retrieval accuracy and execution efficacy in online environments. Extensive experiments demonstrate that ToolOmni achieves state-of-the-art performance both in retrieval and execution, surpassing strong baselines by a significant margin of +10.8% in end-to-end execution success rate, while exhibiting exceptional robustness and generalization capabilities.