Pushing the Limits of LLM Tool Calling via Experiential Knowledge Integration and Activation

📄 arXiv: 2606.10875v1 📥 PDF

作者: Yupu Hao, Zhuoran Jin, Huanxuan Liao, Kang Liu, Jun Zhao

分类: cs.CL

发布日期: 2026-06-09

🔗 代码/项目: GITHUB


💡 一句话要点

提出知识增强工具执行框架以解决LLM工具调用问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 工具调用 知识增强 推理机制 强化学习 自主代理 多步骤执行

📋 核心要点

  1. 现有大型语言模型在多步骤工具调用中表现不佳,主要由于缺乏有效的工具相关知识和知识激活机制。
  2. 本文提出知识增强工具执行框架(KATE),通过扩展推理宽度和知识增强训练来提升工具使用性能。
  3. 实验结果表明,KATE在多个基准数据集上相较于强基线模型实现了显著的性能提升,验证了其有效性。

📝 摘要(中文)

大型语言模型(LLMs)依赖工具使用作为自主代理,但在多步骤执行中常因工具相关知识不足和知识激活不有效而失败。因此,本文系统研究了知识如何影响工具使用性能,涵盖知识获取、激活和内化三个阶段。我们发现简单的实例级知识能够提供显著的性能提升,而抽象的意图级知识效果有限。在推理时,通过并行采样和聚合扩展推理宽度能更有效地激活潜在的经验知识。训练时,使用知识增强数据进行后训练能进一步提升性能,强化学习优于监督微调。基于这些见解,我们提出了知识增强工具执行框架(KATE),在BFCL-V3和AppWorld上的实验显示出显著的性能提升。

🔬 方法详解

问题定义:本文旨在解决大型语言模型在工具调用中的知识不足和激活不有效的问题,现有方法在多步骤执行中常常失败。

核心思路:通过系统研究知识的获取、激活和内化,提出知识增强工具执行框架(KATE),以提升工具使用的性能。

技术框架:KATE框架包括知识获取、推理阶段的知识激活和训练阶段的知识内化三个主要模块。知识获取阶段评估不同形式的经验知识,推理阶段通过并行采样扩展推理宽度,训练阶段采用知识增强数据进行后训练。

关键创新:最重要的创新在于通过扩展推理宽度来激活潜在知识,而不是单纯增加推理深度,这一设计显著提升了知识的有效性。

关键设计:在训练过程中,使用知识增强数据进行后训练,并通过强化学习方法优化模型,超越传统的监督微调策略。具体的参数设置和损失函数设计在实验中进行了详细验证。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在BFCL-V3和AppWorld的实验中,KATE框架在多个模型规模上均实现了显著的性能提升,相较于强基线模型,性能提升幅度达到15%以上,验证了其有效性和实用性。

🎯 应用场景

该研究的潜在应用领域包括智能助手、自动化工具和复杂任务的自主执行等。通过提升大型语言模型的工具调用能力,KATE框架可以在多种场景中提供更高效的解决方案,推动智能代理技术的发展。

📄 摘要(原文)

Large language models (LLMs) rely on tool use to act as autonomous agents, yet often fail in multi-step execution due to insufficient tool-related knowledge and ineffective knowledge activation. Therefore, we present a systematic study on how knowledge influences tool-use performance, covering the stages of knowledge acquisition, activation, and internalization. In the knowledge acquisition stage, we acquire and evaluate various forms of experiential knowledge, and our analysis shows that simple instance-level knowledge can already provide strong and reliable gains, while abstract intent-level knowledge offers limited benefits. At inference time, to activate knowledge, we find that prompting LLM to expand the depth of reasoning yields diminishing returns, whereas expanding the width of reasoning by parallel sampling with aggregation more effectively activates latent experiential knowledge. At training time, for knowledge internalization, post-training with knowledge-augmented data further improves performance, with reinforcement learning outperforming supervised fine-tuning. Based on these insights, we propose the Knowledge-Augmented Tool Execution (KATE), a knowledge-augmented tool execution framework that integrates experiential knowledge with reasoning-width-expanded inference and knowledge-aware training. Experiments on BFCL-V3 and AppWorld demonstrate consistent and substantial improvements over strong baselines across model scales. Our Code is available at https://github.com/hypasd-art/KATE.