ToolHop: A Query-Driven Benchmark for Evaluating Large Language Models in Multi-Hop Tool Use

📄 arXiv: 2501.02506v4 📥 PDF

作者: Junjie Ye, Zhengyin Du, Xuesong Yao, Weijian Lin, Yufei Xu, Zehui Chen, Zaiyuan Wang, Sining Zhu, Zhiheng Xi, Siyu Yuan, Tao Gui, Qi Zhang, Xuanjing Huang, Jiecao Chen

分类: cs.CL

发布日期: 2025-01-05 (更新: 2025-05-20)

备注: Accepted by ACL 2025 Main Conference

🔗 代码/项目: HUGGINGFACE


💡 一句话要点

ToolHop:一个查询驱动的多跳工具使用大语言模型评测基准

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多跳工具使用 大型语言模型 评估基准 函数调用 查询驱动

📋 核心要点

  1. 现有大型语言模型在多跳工具使用方面缺乏可靠的评估数据集,阻碍了模型能力的有效分析和提升。
  2. ToolHop通过查询驱动的数据构建方法,生成包含多样化查询、工具依赖、可执行代码和可验证答案的数据集,用于评估LLM的多跳工具使用能力。
  3. 实验结果表明,即使是GPT-4o在ToolHop上的准确率也仅为49.04%,揭示了现有LLM在多跳工具使用方面仍有显著的提升空间。

📝 摘要(中文)

为了有效评估大型语言模型(LLMs)在多跳工具使用方面的能力,包括理解、推理和函数调用,我们提出了ToolHop数据集。该数据集包含995个用户查询和3912个相关工具,专为严格评估多跳工具使用而设计。ToolHop通过一种新颖的查询驱动数据构建方法,确保了查询的多样性、有意义的相互依赖性、本地可执行的工具、详细的反馈和可验证的答案,该方法包括工具创建、文档完善和代码生成。我们评估了五个模型家族(LLaMA3.1、Qwen2.5、Gemini1.5、Claude3.5和GPT)的14个LLM,揭示了它们在处理多跳工具使用场景中的重大挑战。性能最佳的模型GPT-4o的准确率仅为49.04%,表明仍有很大的改进空间。进一步的分析揭示了不同模型家族在工具使用策略上的差异,为指导开发更有效的方法提供了可操作的见解。代码和数据可在https://huggingface.co/datasets/bytedance-research/ToolHop找到。

🔬 方法详解

问题定义:论文旨在解决缺乏可靠数据集来评估大型语言模型(LLMs)在多跳工具使用方面的能力的问题。现有的评估方法要么缺乏多样性和复杂性,要么难以验证答案的正确性,限制了对LLM工具使用能力的深入分析。

核心思路:论文的核心思路是构建一个查询驱动的数据集,其中每个查询都需要通过多个工具的协同使用才能得到解答。这种设计能够有效地考察LLM的推理、规划和函数调用能力,并提供可验证的答案。

技术框架:ToolHop的构建流程主要包括三个阶段:工具创建、文档完善和代码生成。首先,创建一系列具有不同功能的工具,并编写详细的文档。然后,根据这些工具,设计需要多步推理才能解决的用户查询。最后,生成用于执行工具调用的代码,并验证答案的正确性。

关键创新:ToolHop的关键创新在于其查询驱动的数据构建方法。与以往的数据集不同,ToolHop不是随机生成数据,而是根据预定义的查询来构建工具和文档,从而保证了数据集的多样性、复杂性和可验证性。

关键设计:ToolHop的关键设计包括:(1) 工具的本地可执行性,保证了评估的可靠性;(2) 详细的工具文档,为LLM提供了足够的信息来理解和使用工具;(3) 可验证的答案,使得可以客观地评估LLM的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,在ToolHop数据集上,即使是性能领先的GPT-4o模型,其准确率也仅为49.04%。这表明当前的大型语言模型在多跳工具使用方面仍面临巨大挑战,存在显著的改进空间。此外,不同模型家族在工具使用策略上存在差异,为进一步优化模型提供了有价值的参考。

🎯 应用场景

ToolHop数据集可用于评估和提升大型语言模型在各种需要工具辅助的复杂任务中的表现,例如智能助手、自动化流程、科学研究等。通过使用ToolHop进行训练和评估,可以开发出更智能、更可靠的工具使用型LLM,从而提高工作效率和解决问题的能力。

📄 摘要(原文)

Effective evaluation of multi-hop tool use is critical for analyzing the understanding, reasoning, and function-calling capabilities of large language models (LLMs). However, progress has been hindered by a lack of reliable evaluation datasets. To address this, we present ToolHop, a dataset comprising 995 user queries and 3,912 associated tools, specifically designed for rigorous evaluation of multi-hop tool use. ToolHop ensures diverse queries, meaningful interdependencies, locally executable tools, detailed feedback, and verifiable answers through a novel query-driven data construction approach that includes tool creation, document refinement, and code generation. We evaluate 14 LLMs across five model families (i.e., LLaMA3.1, Qwen2.5, Gemini1.5, Claude3.5, and GPT), uncovering significant challenges in handling multi-hop tool-use scenarios. The leading model, GPT-4o, achieves an accuracy of 49.04%, underscoring substantial room for improvement. Further analysis reveals variations in tool-use strategies for various families, offering actionable insights to guide the development of more effective approaches. Code and data can be found in https://huggingface.co/datasets/bytedance-research/ToolHop.