WTU-EVAL: A Whether-or-Not Tool Usage Evaluation Benchmark for Large Language Models

📄 arXiv: 2407.12823v1 📥 PDF

作者: Kangyun Ning, Yisong Su, Xueqiang Lv, Yuanzhe Zhang, Jian Liu, Kang Liu, Jinan Xu

分类: cs.CL, cs.AI

发布日期: 2024-07-02


💡 一句话要点

提出WTU-Eval基准,评估大语言模型在不确定场景下的工具使用能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 工具学习 工具使用评估 WTU-Eval 不确定性 微调 工具决策

📋 核心要点

  1. 现有工具学习研究假设LLM必须使用工具,忽略了现实场景中工具使用的不确定性,可能损害LLM的通用能力。
  2. 论文提出WTU-Eval基准,包含工具使用和通用数据集,评估LLM在不确定场景下是否能正确判断并使用工具。
  3. 实验表明LLM在通用数据集上难以判断工具使用,错误使用工具会显著降低性能,通过微调可提升工具决策能力。

📝 摘要(中文)

大型语言模型(LLMs)在自然语言处理任务中表现出色,但仍需外部工具来扩展其能力。目前关于LLMs工具学习的研究通常假设强制性工具使用,这与现实情况并不总是一致,在现实中,对工具的需求是不确定的,不正确或不必要的工具使用会损害LLMs的通用能力。因此,我们提出探索LLMs是否可以辨别其能力边界并灵活地使用工具。然后,我们引入了Whether-or-not tool usage Evaluation benchmark(WTU-Eval)来评估LLMs,该基准包含11个数据集,其中6个是工具使用数据集,5个是通用数据集。LLMs被提示根据其需要使用工具。在WTU-Eval上对8个LLMs的结果表明,LLMs在通用数据集中经常难以确定工具的使用,并且当LLMs的能力与ChatGPT相似时,它们在工具使用数据集中的性能会提高。在这两个数据集中,不正确的工具使用会严重损害LLMs的性能。为了缓解这种情况,我们还开发了微调数据集以增强工具决策能力。微调Llama2-7B可带来平均14%的性能提升和16.8%的错误工具使用减少。我们将发布WTU-Eval基准。

🔬 方法详解

问题定义:现有的大语言模型工具学习研究通常假设模型必须使用工具,而忽略了现实世界中工具使用的不确定性。在实际应用中,模型需要判断是否需要使用工具,以及使用哪个工具。不恰当的工具使用不仅会浪费计算资源,还会降低模型的整体性能。因此,如何让大语言模型在不确定场景下正确判断工具的使用成为了一个关键问题。

核心思路:论文的核心思路是构建一个评估基准,用于评估大语言模型在不确定场景下判断和使用工具的能力。该基准包含工具使用数据集和通用数据集,通过比较模型在不同数据集上的表现,分析模型在工具使用决策方面的优缺点。此外,论文还通过微调的方式,提升模型在工具使用决策方面的能力。

技术框架:WTU-Eval基准包含两个主要部分:工具使用数据集和通用数据集。工具使用数据集包含需要使用特定工具才能解决的任务,而通用数据集包含不需要使用工具也能解决的任务。评估流程如下:首先,将LLM输入包含任务描述的prompt,然后观察LLM是否选择使用工具。如果LLM选择使用工具,则执行相应的工具调用,并将结果反馈给LLM。最后,根据LLM的最终输出评估其性能。论文还构建了一个微调数据集,用于提升LLM的工具使用决策能力。

关键创新:该论文的关键创新在于提出了WTU-Eval基准,该基准能够更真实地反映大语言模型在实际应用中面临的工具使用决策问题。与以往的研究不同,WTU-Eval基准不仅关注模型使用工具的能力,更关注模型判断是否需要使用工具的能力。此外,论文还通过实验证明了不正确的工具使用会对模型性能产生负面影响,并提出了通过微调提升工具使用决策能力的方法。

关键设计:WTU-Eval基准包含11个数据集,其中6个是工具使用数据集,5个是通用数据集。工具使用数据集涵盖了多种类型的工具,例如计算器、搜索引擎等。通用数据集涵盖了多种类型的任务,例如问答、文本生成等。微调数据集的构建方式是,针对模型在WTU-Eval基准上表现不佳的样本,人工标注正确的工具使用决策,然后使用这些标注数据对模型进行微调。微调采用交叉熵损失函数,优化目标是最小化模型预测的工具使用决策与人工标注之间的差异。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,LLM在通用数据集上难以准确判断是否需要使用工具,错误的工具使用会显著降低性能。通过在Llama2-7B上进行微调,模型在WTU-Eval基准上的平均性能提升了14%,错误工具使用率降低了16.8%。这表明微调可以有效提升LLM在不确定场景下的工具使用决策能力。

🎯 应用场景

该研究成果可应用于各种需要大语言模型与外部工具交互的场景,例如智能助手、自动报告生成、科学研究等。通过提高LLM在不确定场景下的工具使用能力,可以提升这些应用的智能化水平和用户体验。未来,可以进一步研究如何让LLM根据上下文动态调整工具使用策略,实现更灵活、高效的工具交互。

📄 摘要(原文)

Although Large Language Models (LLMs) excel in NLP tasks, they still need external tools to extend their ability. Current research on tool learning with LLMs often assumes mandatory tool use, which does not always align with real-world situations, where the necessity for tools is uncertain, and incorrect or unnecessary use of tools can damage the general abilities of LLMs. Therefore, we propose to explore whether LLMs can discern their ability boundaries and use tools flexibly. We then introduce the Whether-or-not tool usage Evaluation benchmark (WTU-Eval) to assess LLMs with eleven datasets, where six of them are tool-usage datasets, and five are general datasets. LLMs are prompted to use tools according to their needs. The results of eight LLMs on WTU-Eval reveal that LLMs frequently struggle to determine tool use in general datasets, and LLMs' performance in tool-usage datasets improves when their ability is similar to ChatGPT. In both datasets, incorrect tool usage significantly impairs LLMs' performance. To mitigate this, we also develop the finetuning dataset to enhance tool decision-making. Fine-tuning Llama2-7B results in a 14\% average performance improvement and a 16.8\% decrease in incorrect tool usage. We will release the WTU-Eval benchmark.