Advancing and Benchmarking Personalized Tool Invocation for LLMs
作者: Xu Huang, Yuefeng Huang, Weiwen Liu, Xingshan Zeng, Yasheng Wang, Ruiming Tang, Hong Xie, Defu Lian
分类: cs.CL, cs.AI
发布日期: 2025-05-07
备注: 14 pages, 7 figures, 5 tables
🔗 代码/项目: GITHUB
💡 一句话要点
提出PTool框架与PTBench基准,用于评估和提升LLM的个性化工具调用能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 工具调用 个性化 用户画像 数据合成 基准测试 智能助手
📋 核心要点
- 现有工作主要关注LLM调用工具解决问题的基本能力,忽略了个性化约束,例如用户偏好和隐含参数。
- 论文提出PTool数据合成框架,用于生成个性化的工具调用数据,以解决数据稀缺问题,并提升模型对用户偏好的理解。
- 构建了PTBench基准,用于评估个性化工具调用能力,并通过微调开源模型验证了PTool框架的有效性。
📝 摘要(中文)
本文提出了个性化工具调用这一概念,并定义了两个关键任务:工具偏好和依赖于用户画像的查询。工具偏好旨在解决在功能相似的工具中选择用户偏好的问题,而依赖于用户画像的查询则考虑用户查询缺少某些工具参数,需要模型从用户画像中推断的情况。为了应对这些挑战,我们提出了PTool,一个为个性化工具调用设计的数据合成框架。此外,我们构建了PTBench,这是第一个用于评估个性化工具调用的基准。我们还对各种开源模型进行了微调,证明了我们框架的有效性,并提供了有价值的见解。我们的基准已公开。
🔬 方法详解
问题定义:现有的大语言模型(LLM)在工具调用方面取得了显著进展,但主要集中在解决问题的基本能力上,忽略了个性化因素。具体来说,当存在多个功能相似的工具时,模型难以根据用户偏好进行选择。此外,用户查询可能不包含所有必需的工具参数,模型需要根据用户画像推断这些参数。现有方法缺乏对这些个性化需求的考虑,导致工具调用效果不佳。
核心思路:论文的核心思路是构建一个数据合成框架,用于生成包含个性化信息的工具调用数据,从而训练LLM更好地理解用户偏好和推断缺失的参数。通过大量合成数据,模型可以学习到用户画像与工具参数之间的关联,从而实现个性化的工具调用。
技术框架:整体框架包含数据合成和模型微调两个主要阶段。数据合成阶段使用PTool框架生成包含工具偏好和依赖用户画像查询的数据。模型微调阶段则使用合成数据对开源LLM进行微调,使其具备个性化工具调用能力。PTBench基准用于评估微调后的模型在个性化工具调用任务上的性能。
关键创新:最重要的技术创新点是PTool数据合成框架,它能够根据预定义的规则和用户画像生成高质量的个性化工具调用数据。与手动标注数据相比,PTool可以高效地生成大规模数据集,从而解决数据稀缺问题。此外,PTBench基准的构建也为个性化工具调用领域的研究提供了统一的评估标准。
关键设计:PTool框架的设计细节未知,论文中可能包含数据生成规则、用户画像的表示方法、以及如何将个性化信息融入到工具调用数据中的具体细节。模型微调阶段的关键设计包括选择合适的开源LLM、设计合适的损失函数以优化个性化工具调用能力、以及选择合适的超参数。
🖼️ 关键图片
📊 实验亮点
论文构建了PTBench基准,并使用PTool框架对多个开源LLM进行了微调。实验结果表明,使用PTool合成的数据进行微调可以显著提升模型在个性化工具调用任务上的性能。具体的性能数据和提升幅度需要在论文中查找。PTBench的发布为该领域的研究提供了统一的评估平台。
🎯 应用场景
该研究成果可应用于智能助手、个性化推荐系统等领域。例如,智能助手可以根据用户的历史行为和偏好,选择最合适的工具来完成用户提出的任务。个性化推荐系统可以根据用户的画像,推荐用户可能感兴趣的工具或服务。未来,该技术还可以应用于更广泛的领域,例如智能家居、智能医疗等。
📄 摘要(原文)
Tool invocation is a crucial mechanism for extending the capabilities of Large Language Models (LLMs) and has recently garnered significant attention. It enables LLMs to solve complex problems through tool calls while accessing up-to-date world knowledge. However, existing work primarily focuses on the fundamental ability of LLMs to invoke tools for problem-solving, without considering personalized constraints in tool invocation. In this work, we introduce the concept of Personalized Tool Invocation and define two key tasks: Tool Preference and Profile-dependent Query. Tool Preference addresses user preferences when selecting among functionally similar tools, while Profile-dependent Query considers cases where a user query lacks certain tool parameters, requiring the model to infer them from the user profile. To tackle these challenges, we propose PTool, a data synthesis framework designed for personalized tool invocation. Additionally, we construct \textbf{PTBench}, the first benchmark for evaluating personalized tool invocation. We then fine-tune various open-source models, demonstrating the effectiveness of our framework and providing valuable insights. Our benchmark is public at https://github.com/hyfshadow/PTBench.