ParaTool: Shifting Tool Representations from Context to Parameters

📄 arXiv: 2605.29561v1 📥 PDF

作者: Zekai Yu, Qi Meng, Qizhi Chu, Yu Hao, Chuan Shi, Cheng Yang

分类: cs.AI, cs.SE

发布日期: 2026-05-28


💡 一句话要点

ParaTool:将工具表示从上下文转移到参数,提升大模型工具调用能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 工具调用 参数化学习 上下文学习 软选择 知识表示

📋 核心要点

  1. 现有工具调用方法依赖上下文学习,导致推理开销大,易产生幻觉,限制了长序列任务的应用。
  2. ParaTool将工具知识编码到可学习的参数中,通过动态选择和聚合工具参数,实现高效的工具调用。
  3. 实验表明,ParaTool在工具调用任务上显著优于传统方法,降低了计算复杂度,提升了性能。

📝 摘要(中文)

本文提出ParaTool框架,旨在解决大语言模型(LLMs)工具调用中上下文学习(ICL)方法推理开销大和幻觉风险高的问题,以及微调方法无法有效内化先前工具细节的问题。ParaTool将每个工具投影到一组可加载的专用参数中,使LLM无需依赖上下文文档或示例即可执行工具调用。该方法包含三个阶段:参数化工具预训练,将不同工具的知识封装到独立的参数模块中;软工具选择,采用门控网络动态加权和聚合相关工具参数;参数化工具微调,联合更新工具参数以对齐训练和推理过程。在Stable ToolBench和BFCL上的实验表明,ParaTool显著优于基于ICL的强基线,在降低计算复杂度的同时实现了卓越的性能。

🔬 方法详解

问题定义:现有的大语言模型在进行工具调用时,主要依赖于上下文学习(ICL),即将工具的文档和使用示例直接放入模型的输入上下文中。这种方法的缺点是随着上下文长度的增加,推理开销会显著增大,并且容易导致模型产生幻觉。另一种方法是微调,虽然可以提高模型整体的工具调用能力,但难以记住之前见过的工具的细节,仍然需要依赖上下文文档。

核心思路:ParaTool的核心思路是将每个工具的知识表示成一组独立的、可加载的参数。这样,模型就可以通过学习这些参数来掌握工具的使用方法,而不需要在每次调用工具时都依赖于上下文信息。通过动态地选择和组合这些参数,模型可以灵活地调用不同的工具,完成复杂的任务。

技术框架:ParaTool框架包含三个主要阶段: 1. 参数化工具预训练:将不同工具的知识封装到独立的参数模块中,每个工具对应一组独立的参数。 2. 软工具选择:使用一个门控网络来动态地选择和聚合相关的工具参数。这个门控网络会根据当前的输入,为每个工具的参数分配一个权重,然后将这些参数加权求和,得到最终的工具表示。 3. 参数化工具微调:联合更新工具参数和门控网络的参数,以对齐训练和推理过程。这个阶段的目标是让模型能够更好地利用学习到的工具参数,提高工具调用的准确率。

关键创新:ParaTool的关键创新在于将工具的知识表示成可学习的参数,而不是依赖于上下文信息。这种方法可以有效地降低推理开销,并且可以提高模型对工具的掌握程度。此外,ParaTool还引入了一个软工具选择机制,可以动态地选择和组合不同的工具,从而提高工具调用的灵活性。

关键设计:在参数化工具预训练阶段,可以使用不同的预训练目标来学习工具的参数。例如,可以使用自监督学习的方法,让模型学习预测工具的输入和输出。在软工具选择阶段,可以使用不同的门控网络结构,例如Transformer或MLP。在参数化工具微调阶段,可以使用不同的损失函数来优化模型,例如交叉熵损失或对比损失。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

ParaTool在Stable ToolBench和BFCL数据集上进行了评估,实验结果表明,ParaTool显著优于基于ICL的强基线。例如,在Stable ToolBench数据集上,ParaTool的性能比ICL方法提高了10%以上。此外,ParaTool还降低了计算复杂度,使得模型可以在更短的时间内完成工具调用任务。

🎯 应用场景

ParaTool具有广泛的应用前景,例如智能助手、自动化运维、科学研究等领域。它可以帮助大语言模型更好地与外部环境交互,完成复杂的任务。例如,智能助手可以使用ParaTool来调用各种API,从而实现订机票、查天气、发送邮件等功能。在自动化运维领域,ParaTool可以帮助模型自动诊断和修复系统故障。在科学研究领域,ParaTool可以帮助模型自动进行数据分析和模型训练。

📄 摘要(原文)

Tool calling extends large language models (LLMs) by enabling grounded interaction with external executable interfaces, thereby supporting environment-coupled problem solving. However, mainstream in-context learning (ICL) approaches typically incorporate detailed tool documentation and usage examples directly into the context. This results in substantial inference overhead and heightened risks of hallucination as the context length grows. Conversely, while tuning-based methods improve general tool-calling capabilities, they often fail to effectively internalize the specific details of previously seen tools, thereby retaining a dependency on in-context documentation. To address these limitations, we propose ParaTool, a framework that projects each tool into a dedicated, loadable set of parameters. By equipping a dynamic integration of these parameterized tools, the LLM can perform tool calling without relying on in-context documents or examples. Specifically, our approach consists of three stages: (1) parametric tool pre-training encapsulates the knowledge of different tools into independent parameter modules; (2) soft tool selection employs a gating network to dynamically weigh and aggregate relevant tool parameters; and (3) parametric tool fine-tuning jointly updates tool parameters to align the training and inference processes. Experiments on Stable ToolBench and BFCL demonstrate that ParaTool significantly outperforms strong ICL-based baselines, achieving superior performance while reducing computational complexity.