ToolHaystack: Stress-Testing Tool-Augmented Language Models in Realistic Long-Term Interactions
作者: Beong-woo Kwak, Minju Kim, Dongha Lim, Hyungjoo Chae, Dongjin Kang, Sunghwan Kim, Dongil Yang, Jinyoung Yeo
分类: cs.CL
发布日期: 2025-05-29 (更新: 2025-11-21)
备注: Our code and data are available at https://github.com/bwookwak/ToolHaystack Edited for adding acknowledgement section
💡 一句话要点
提出ToolHaystack以解决长时间交互中工具使用评估不足的问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 工具使用 长时间交互 语言模型 基准测试 模型评估 上下文保持 鲁棒性
📋 核心要点
- 现有工具使用评估大多集中在短期上下文,缺乏对模型在长时间交互中的表现的深入分析。
- ToolHaystack基准通过引入多个任务执行上下文和现实噪声,评估模型在长时间交互中的工具使用能力。
- 实验显示,尽管当前模型在标准多轮设置中表现良好,但在ToolHaystack中却面临显著挑战,揭示了长期鲁棒性不足的问题。
📝 摘要(中文)
大型语言模型(LLMs)在使用外部工具回答用户询问方面表现出强大的能力。然而,现有评估大多假设工具使用在短期上下文中,无法深入了解模型在现实长时间交互中的表现。为填补这一空白,本文提出了ToolHaystack,一个用于测试工具使用能力的基准,特别是在长时间交互中。每个测试实例包含多个任务执行上下文和连续对话中的现实噪声,从而评估模型在保持上下文和处理各种干扰方面的能力。通过将该基准应用于14个最先进的LLMs,我们发现当前模型在标准的多轮设置中表现良好,但在ToolHaystack中往往显著挣扎,揭示了其在长期鲁棒性方面的关键缺陷,这些缺陷在之前的工具基准中未被揭示。
🔬 方法详解
问题定义:本文旨在解决现有工具使用评估在长时间交互中的不足,现有方法未能有效评估模型在复杂和动态环境中的表现。
核心思路:ToolHaystack基准通过设计包含多个任务和现实噪声的测试实例,模拟真实的长时间交互场景,以全面评估模型的工具使用能力。
技术框架:ToolHaystack的整体架构包括任务生成模块、噪声引入模块和模型评估模块。任务生成模块负责创建多样化的任务场景,噪声引入模块则模拟真实对话中的干扰,最后通过模型评估模块分析模型的表现。
关键创新:最重要的创新在于引入了长时间交互的真实场景和噪声,这与传统的短期评估方法形成鲜明对比,使得评估结果更加贴近实际应用。
关键设计:在设计中,参数设置考虑了任务的多样性和复杂性,损失函数则侧重于模型在长时间交互中的上下文保持能力,网络结构则采用了适应性强的Transformer架构,以支持多轮对话的处理。
📊 实验亮点
实验结果显示,14个最先进的LLMs在ToolHaystack基准下的表现显著低于在标准多轮设置中的表现,揭示了它们在长时间交互中的鲁棒性不足。这一发现强调了在真实应用中对模型进行全面评估的重要性。
🎯 应用场景
该研究的潜在应用领域包括智能助手、客户服务机器人和教育领域的对话系统。ToolHaystack能够帮助开发者更好地理解和优化模型在长时间交互中的表现,从而提升用户体验和系统的实用性。未来,该基准可能推动更鲁棒的语言模型的开发,适应更复杂的应用场景。
📄 摘要(原文)
Large language models (LLMs) have demonstrated strong capabilities in using external tools to address user inquiries. However, most existing evaluations assume tool use in short contexts, offering limited insight into model behavior during realistic long-term interactions. To fill this gap, we introduce ToolHaystack, a benchmark for testing the tool use capabilities in long-term interactions. Each test instance in ToolHaystack includes multiple tasks execution contexts and realistic noise within a continuous conversation, enabling assessment of how well models maintain context and handle various disruptions. By applying this benchmark to 14 state-of-the-art LLMs, we find that while current models perform well in standard multi-turn settings, they often significantly struggle in ToolHaystack, highlighting critical gaps in their long-term robustness not revealed by previous tool benchmarks.