DICE-BENCH: Evaluating the Tool-Use Capabilities of Large Language Models in Multi-Round, Multi-Party Dialogues

📄 arXiv: 2506.22853v2 📥 PDF

作者: Kyochul Jang, Donghyeon Lee, Kyusik Kim, Dongseok Heo, Taewhoo Lee, Woojeong Kim, Bongwon Suh

分类: cs.CL, cs.AI

发布日期: 2025-06-28 (更新: 2025-07-02)

备注: 9 pages, ACL 2025 Vienna

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

DICE-BENCH:评估大语言模型在多轮多方对话中工具使用能力的基准

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 工具使用 函数调用 多轮对话 多方对话 基准测试 对话生成

📋 核心要点

  1. 现有函数调用基准侧重单轮交互,未能充分模拟真实世界多轮、多方对话场景的复杂性。
  2. DICE-BENCH通过工具图和多智能体系统合成对话,构建更贴近实际应用的高质量函数调用数据集。
  3. 实验表明,现有大语言模型在DICE-BENCH上的表现仍有提升空间,距离实际应用存在差距。

📝 摘要(中文)

现有的函数调用基准测试主要集中在单轮交互,忽略了真实场景的复杂性。为了量化现有基准测试在实际应用中的表现,我们引入了DICE-SCORE,该指标评估了对话中工具相关信息(如函数名和参数值)的离散程度。通过DICE-SCORE分析现有基准测试发现得分显著偏低,突显了对更真实场景的需求。为了解决这一问题,我们提出了DICE-BENCH,一个通过工具图(维护跨轮依赖关系)和多智能体系统(具有不同角色以增强对话自然性)合成对话来构建实际函数调用数据集的框架。最终数据集包含1,607个高DICE-SCORE实例。我们对19个LLM进行的DICE-BENCH实验表明,在这些模型能够有效地部署在现实环境中之前,还需要取得重大进展。我们的代码和数据已全部公开。

🔬 方法详解

问题定义:现有函数调用基准测试主要关注单轮交互,忽略了真实世界对话的复杂性,例如多轮对话中工具信息的依赖关系以及多方参与者之间的协作。这些基准测试无法准确评估大语言模型在实际应用场景中的工具使用能力。现有基准测试的DICE-SCORE较低,表明其模拟的场景与真实场景存在较大差距。

核心思路:DICE-BENCH的核心思路是通过合成更真实的对话数据来构建更具挑战性的函数调用基准。它通过引入工具图来维护跨轮对话中工具之间的依赖关系,并使用多智能体系统来模拟多方参与者的对话,从而提高对话的自然性和复杂性。

技术框架:DICE-BENCH的整体框架包括以下几个主要模块:1) 工具图构建:定义工具及其之间的依赖关系。2) 多智能体系统:创建具有不同角色和目标的智能体。3) 对话生成:使用工具图和多智能体系统生成多轮、多方对话。4) 数据标注:标注对话中涉及的函数调用和参数信息。5) DICE-SCORE评估:使用DICE-SCORE评估数据集的质量。

关键创新:DICE-BENCH的关键创新在于其能够生成具有高DICE-SCORE的对话数据,从而更真实地反映了实际应用场景的复杂性。与现有基准测试相比,DICE-BENCH更注重对话的自然性和工具之间的依赖关系。DICE-SCORE作为一种新的评估指标,能够有效衡量对话中工具相关信息的离散程度,从而更好地评估数据集的质量。

关键设计:工具图的设计需要仔细考虑工具之间的依赖关系,以确保生成的对话具有逻辑性和连贯性。多智能体系统的设计需要定义每个智能体的角色、目标和行为模式,以模拟真实世界中不同参与者的交互。DICE-SCORE的计算需要合理设置参数,以准确反映对话中工具相关信息的离散程度。具体的参数设置和损失函数等技术细节在论文中未详细说明,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DICE-BENCH数据集包含1,607个高DICE-SCORE实例,显著高于现有基准测试。在对19个大语言模型进行评估后发现,它们在DICE-BENCH上的表现仍有提升空间,表明现有模型在处理复杂对话场景中的工具使用方面仍存在不足。DICE-SCORE作为一种新的评估指标,能够有效衡量对话中工具相关信息的离散程度。

🎯 应用场景

DICE-BENCH可用于评估和提升大语言模型在各种实际应用场景中的工具使用能力,例如智能助手、客户服务、自动化流程等。通过使用DICE-BENCH进行训练和评估,可以提高大语言模型在复杂对话场景中的表现,使其能够更有效地利用各种工具来完成任务,从而提高工作效率和用户满意度。该研究为构建更智能、更实用的对话系统奠定了基础。

📄 摘要(原文)

Existing function-calling benchmarks focus on single-turn interactions. However, they overlook the complexity of real-world scenarios. To quantify how existing benchmarks address practical applications, we introduce DICE-SCORE, a metric that evaluates the dispersion of tool-related information such as function name and parameter values throughout the dialogue. Analyzing existing benchmarks through DICE-SCORE reveals notably low scores, highlighting the need for more realistic scenarios. To address this gap, we present DICE-BENCH, a framework that constructs practical function-calling datasets by synthesizing conversations through a tool graph that maintains dependencies across rounds and a multi-agent system with distinct personas to enhance dialogue naturalness. The final dataset comprises 1,607 high-DICE-SCORE instances. Our experiments on 19 LLMs with DICE-BENCH show that significant advances are still required before such models can be deployed effectively in real-world settings. Our code and data are all publicly available: https://snuhcc.github.io/DICE-Bench/.