Internalizing Tool Knowledge in Small Language Models via QLoRA Fine-Tuning

作者: Yuval Shemla, Ayal Yakobe, Tanmay Agarwal

分类: cs.CL

发布日期: 2026-05-18

💡 一句话要点

通过QLoRA微调，将工具知识内化于小型语言模型中，实现无描述推理。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 工具使用 语言模型 QLoRA 参数高效微调 知识内化 智能体系统 无描述推理

📋 核心要点

现有工具使用方法依赖于在prompt中包含完整工具模式，导致token开销大，限制了小型语言模型的应用。
通过QLoRA微调，将工具知识内化到小型语言模型中，实现无显式工具描述的结构化规划。
实验表明，微调后的模型在减少输入长度的同时，提高了结构化和LLM-judge规划分数。

📝 摘要（中文）

大型语言模型越来越多地被用作智能体系统中的规划组件，但当前的工具使用流程通常需要在每个提示中包含完整的工具模式，这会产生大量的token开销，并限制了较小模型的实用性。本文研究了是否可以通过参数高效的微调将工具使用知识内化到小型语言模型中，从而在推理时无需显式工具描述即可实现结构化规划。使用AssetOpsBench作为主要基准，我们使用8-bit QLoRA在约1,700个工具使用示例上对Gemma 4 E4B和Qwen3-4B进行微调，这些示例涵盖工具知识、问题到计划的映射和执行风格的轨迹。我们在无描述推理下评估生成的模型，其中提示完全省略了工具目录。微调后的模型优于接收完整工具描述的知情但未微调的基线，在减少82.6%的输入长度的同时，提高了结构化和LLM-judge规划分数。在最佳Gemma运行中，该模型实现了0.65的AT-F1和3.88的总体judge分数，而知情基线分别为0.47和2.88。Qwen3-4B实现了3.78的强大总体judge分数，同时使用的内存减少了62%，运行速度比Gemma快2.5倍，但它在通用多项选择基准测试中也表现出更大的灾难性遗忘。额外的消融实验表明，LoRA秩控制着质量与保留之间的权衡，其中r=32最大化了规划质量，而较小的秩保留了更多的通用知识。这些结果表明，对于固定的工具目录，QLoRA微调可以将工具知识从提示上下文中转移到模型权重中，从而在保持或提高工具规划质量的同时，显着降低推理开销。

🔬 方法详解

问题定义：现有方法在利用大型语言模型进行工具使用时，需要在prompt中包含完整的工具模式，这导致了显著的token开销，尤其对于小型语言模型而言，限制了其在资源受限环境下的应用。因此，如何让小型语言模型在不依赖显式工具描述的情况下，依然能够进行有效的工具规划，是本文要解决的核心问题。

核心思路：本文的核心思路是通过参数高效的微调方法（QLoRA），将工具知识（包括工具的功能、使用方法以及问题到计划的映射）内化到小型语言模型的权重中。这样，在推理阶段，模型无需接收显式的工具描述，即可直接根据输入的问题生成合理的工具使用计划。这种方法旨在减少推理时的token开销，提高小型语言模型的实用性。

技术框架：该研究的技术框架主要包括以下几个步骤：1) 数据准备：构建包含工具知识、问题到计划映射以及执行轨迹的工具使用示例数据集（AssetOpsBench）。2) 模型微调：使用QLoRA方法对小型语言模型（Gemma 4 E4B和Qwen3-4B）进行微调，将工具知识编码到模型参数中。3) 模型评估：在无描述推理的条件下，评估微调后模型在工具规划任务上的性能，并与知情但未微调的基线模型进行比较。4) 消融实验：通过调整LoRA秩（rank），研究其对规划质量和通用知识保留的影响。

关键创新：该研究的关键创新在于，它探索了一种将工具知识从prompt上下文中转移到模型权重中的方法，从而实现了在无显式工具描述的情况下进行工具规划。这种方法不仅降低了推理开销，还提高了小型语言模型的实用性。此外，该研究还通过消融实验，揭示了LoRA秩对规划质量和通用知识保留之间的权衡关系。

关键设计：在模型微调方面，使用了8-bit QLoRA进行参数高效的微调。AssetOpsBench数据集包含约1,700个工具使用示例。评估指标包括AT-F1和LLM-judge分数。通过调整LoRA的秩（r），研究了其对模型性能的影响，发现r=32时规划质量最佳，较小的秩则能保留更多通用知识。

🖼️ 关键图片

📊 实验亮点

实验结果表明，经过QLoRA微调的模型在无描述推理条件下，优于接收完整工具描述的基线模型。Gemma模型在最佳运行中，AT-F1达到0.65，总体judge分数为3.88，而基线模型分别为0.47和2.88。Qwen3-4B模型在内存使用减少62%且运行速度提升2.5倍的情况下，总体judge分数达到3.78。消融实验表明，LoRA秩对规划质量和通用知识保留存在权衡，r=32时规划质量最佳。

🎯 应用场景

该研究成果可应用于资源受限的智能体系统、移动设备上的工具使用助手、以及需要快速部署和低延迟响应的场景。通过将工具知识内化到模型中，可以减少对外部知识库的依赖，提高系统的鲁棒性和可移植性。未来，该方法可以扩展到更复杂的工具集和任务，并与其他知识内化技术相结合，进一步提升智能体的自主性和适应性。

📄 摘要（原文）

Large language models are increasingly used as planning components in agentic systems, but current tool-use pipelines often require full tool schemas to be included in every prompt, creating substantial token overhead and limiting the practicality of smaller models. This paper investigates whether tool-use knowledge can be internalized into small language models through parameter-efficient fine-tuning, enabling structured planning without explicit tool descriptions at inference time. Using AssetOpsBench as the primary benchmark, we fine-tune Gemma 4 E4B and Qwen3-4B with 8-bit QLoRA on approximately 1,700 tool-use examples spanning tool knowledge, question-to-plan mappings, and execution-style traces. We evaluate the resulting models under description-free inference, where the prompt omits the tool catalog entirely. The fine-tuned models outperform an informed unfine-tuned baseline that receives full tool descriptions, reducing input length by 82.6\% while improving structural and LLM-judge planning scores. In the best Gemma run, the model achieves an AT-F1 of 0.65 and an overall judge score of 3.88, compared with 0.47 and 2.88 for the informed baseline. Qwen3-4B achieves a strong overall judge score of 3.78 while using 62\% less memory and running 2.5$\times$ faster than Gemma, though it also exhibits greater catastrophic forgetting on general multiple-choice benchmarks. Additional ablations show that LoRA rank controls a quality--retention trade-off, with $r=32$ maximizing planning quality and smaller ranks preserving more general knowledge. These results suggest that, for fixed tool catalogs, QLoRA fine-tuning can shift tool knowledge from prompt context into model weights, substantially reducing inference overhead while maintaining or improving tool-planning quality.

Internalizing Tool Knowledge in Small Language Models via QLoRA Fine-Tuning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理