FamilyTool: A Multi-hop Personalized Tool Use Benchmark

📄 arXiv: 2504.06766v2 📥 PDF

作者: Yuxin Wang, Yiran Guo, Yining Zheng, Zhangyue Yin, Shuo Chen, Jie Yang, Jiajun Chen, Yuan Li, Xuanjing Huang, Xipeng Qiu

分类: cs.AI, cs.CL

发布日期: 2025-04-09 (更新: 2025-05-26)

🔗 代码/项目: GITHUB


💡 一句话要点

FamilyTool:一个多跳个性化工具使用评测基准,模拟真实家庭知识图谱场景。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 工具学习 大型语言模型 知识图谱 多跳推理 个性化 评测基准 归纳学习

📋 核心要点

  1. 现有工具学习基准难以处理真实世界中需要多跳推理和动态知识适应的个性化场景。
  2. FamilyTool构建于家庭知识图谱之上,模拟了个性化、多跳的工具使用场景,并引入了归纳知识适应的挑战。
  3. 实验表明,现有LLM在FamilyTool上性能显著下降,尤其是在处理多跳推理和归纳场景时,泛化能力不足。

📝 摘要(中文)

本文提出了FamilyTool,一个新颖的评测基准,旨在解决现有工具学习基准在处理真实世界个性化场景方面的不足,特别是那些需要多跳推理和动态环境中归纳知识适应的场景。FamilyTool基于家庭知识图谱(KG),模拟个性化的多跳工具使用场景,包含基础和扩展数据集,分别挑战LLM处理1到4跳以及2到6跳的关系查询(例如,推断家庭关系和偏好)。它还引入了归纳KG设置,模型必须适应未见过的用户偏好和关系,而无需重新训练。此外,本文提出了KGETool,一个简单的KG增强评估流程,以系统地评估LLM在这些设置中的工具使用能力。实验表明,最先进的LLM存在显著的性能差距,准确率随着跳数的增加而急剧下降,并且归纳场景暴露了严重的泛化缺陷。这些发现强调了当前LLM在处理个性化、不断发展的真实世界环境方面的局限性,并突出了对工具学习框架进行改进的迫切需求。FamilyTool为评估和推进LLM智能体在复杂、动态环境中的推理、适应性和可扩展性提供了一个关键资源。

🔬 方法详解

问题定义:现有工具学习基准在模拟真实世界个性化场景方面存在不足,尤其是在需要多跳推理和归纳知识适应的动态环境中。现有方法通常缺乏对用户个性化偏好和关系的建模,并且难以适应新的、未见过的用户数据,导致泛化能力较差。

核心思路:本文的核心思路是构建一个基于家庭知识图谱(KG)的评测基准,模拟真实家庭成员之间的关系和偏好,并设计多跳推理任务,要求模型利用外部工具(例如,API)来查询和推理KG中的信息,从而解决个性化工具使用问题。通过引入归纳KG设置,模型需要在没有重新训练的情况下适应新的用户偏好和关系,从而提高模型的泛化能力。

技术框架:FamilyTool评测基准包含以下几个主要组成部分:1) 家庭知识图谱:模拟家庭成员之间的关系和偏好,例如,父母、子女、朋友、喜欢的食物、喜欢的电影等。2) 多跳推理任务:设计一系列需要多跳推理的问题,例如,“爷爷的儿子的配偶喜欢什么电影?”。3) 归纳KG设置:引入新的用户和关系,要求模型在没有重新训练的情况下适应这些新的数据。4) KGETool评估流程:一个简单的KG增强评估流程,用于系统地评估LLM在这些设置中的工具使用能力。

关键创新:最重要的技术创新点在于构建了一个基于家庭知识图谱的个性化工具使用评测基准,并引入了归纳KG设置,从而更真实地模拟了真实世界中的个性化场景。与现有方法相比,FamilyTool更加关注模型的泛化能力和适应性,能够更好地评估模型在动态环境中的表现。

关键设计:FamilyTool包含基础和扩展数据集,分别挑战LLM处理1到4跳以及2到6跳的关系查询。归纳KG设置通过引入新的用户和关系来实现,模型需要在没有重新训练的情况下适应这些新的数据。KGETool评估流程通过将KG信息融入到LLM的输入中,从而提高模型的推理能力。具体的参数设置和损失函数等技术细节未在摘要中详细描述,需要参考论文全文。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,现有最先进的LLM在FamilyTool上表现不佳,准确率随着跳数的增加而急剧下降。在归纳KG设置下,模型的泛化能力也显著下降,表明现有LLM在处理个性化、动态环境方面存在局限性。这些结果突出了对工具学习框架进行改进的迫切需求。

🎯 应用场景

该研究成果可应用于智能助手、个性化推荐系统、智能客服等领域。通过提高LLM在个性化场景下的工具使用能力,可以为用户提供更加精准、高效的服务。未来,该研究可以进一步扩展到更复杂的知识图谱和推理任务,从而推动LLM在真实世界应用中的发展。

📄 摘要(原文)

The integration of tool learning with Large Language Models (LLMs) has expanded their capabilities in handling complex tasks by leveraging external tools. However, existing benchmarks for tool learning inadequately address critical real-world personalized scenarios, particularly those requiring multi-hop reasoning and inductive knowledge adaptation in dynamic environments. To bridge this gap, we introduce FamilyTool, a novel benchmark grounded in a family-based knowledge graph (KG) that simulates personalized, multi-hop tool use scenarios. FamilyTool, including base and extended datasets, challenges LLMs with queries spanning from 1 to 4 relational hops (e.g., inferring familial connections and preferences) and 2 to 6 hops respectively, and incorporates an inductive KG setting where models must adapt to unseen user preferences and relationships without re-training, a common limitation in prior approaches that compromises generalization. We further propose KGETool: a simple KG-augmented evaluation pipeline to systematically assess LLMs' tool use ability in these settings. Experiments reveal significant performance gaps in state-of-the-art LLMs, with accuracy dropping sharply as hop complexity increases and inductive scenarios exposing severe generalization deficits. These findings underscore the limitations of current LLMs in handling personalized, evolving real-world contexts and highlight the urgent need for advancements in tool-learning frameworks. FamilyTool serves as a critical resource for evaluating and advancing LLM agents' reasoning, adaptability, and scalability in complex, dynamic environments. Code and dataset are available at \href{https://github.com/yxzwang/FamilyTool}{https://github.com/yxzwang/FamilyTool}.