How Can Input Reformulation Improve Tool Usage Accuracy in a Complex Dynamic Environment? A Study on $τ$-bench
作者: Venkatesh Mishra, Amir Saeidi, Satyam Raj, Mutsumi Nakamura, Jayanth Srinivasa, Gaowen Liu, Ali Payani, Chitta Baral
分类: cs.CL
发布日期: 2025-08-28 (更新: 2025-09-01)
备注: Accepted to EMNLP 2025 Findings
💡 一句话要点
提出IRMA框架,通过输入重构显著提升LLM在动态环境中工具使用的准确性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 工具使用 输入重构 动态环境 多智能体系统
📋 核心要点
- 现有LLM智能体在复杂动态环境中工具使用时,面临推理不一致、策略不遵守和信息提取错误等挑战。
- IRMA框架通过自动重构用户输入,并融入领域规则和工具建议,引导LLM智能体更准确地使用工具。
- 实验结果表明,IRMA在动态环境中显著优于ReAct、函数调用和自反思等方法,提升幅度高达19.1%。
📝 摘要(中文)
大型语言模型(LLMs)在推理和规划方面的最新进展使其有潜力成为在动态环境中进行工具使用的自主智能体。然而,在像$τ$-bench这样的多轮对话环境中,这些智能体经常在一致性推理、遵守特定领域策略以及在长时间的工具调用和对话中提取正确信息方面遇到困难。为了捕捉和减轻这些失败,我们对对话轨迹中发生的常见错误进行了全面的手动分析。然后,我们通过实验对工具调用智能体的输入进行重构,以改进智能体的决策。最后,我们提出了输入重构多智能体(IRMA)框架,该框架自动重构用户查询,并结合相关的领域规则和工具建议,以便工具调用智能体能够专注于任务。结果表明,在整体pass^5得分方面,IRMA明显优于ReAct、函数调用和自反思,分别高出16.1%、12.7%和19.1%。这些发现突出了IRMA在动态环境中相对于其他方法的卓越可靠性和一致性。
🔬 方法详解
问题定义:论文旨在解决大型语言模型在复杂动态对话环境中工具使用准确性低的问题。现有方法,如ReAct、函数调用和自反思等,在多轮对话中容易出现推理不一致、无法有效利用领域知识以及难以从历史对话中提取关键信息等痛点,导致工具使用失败率较高。
核心思路:论文的核心思路是通过输入重构来改善LLM智能体的决策过程。具体来说,就是对用户输入的查询进行自动重构,使其更加清晰、明确,并融入相关的领域规则和工具建议,从而引导LLM智能体专注于任务,减少不必要的干扰,提高工具使用的准确性。
技术框架:IRMA框架包含以下主要模块:1) 用户查询接收模块;2) 领域规则和工具建议检索模块;3) 输入重构模块,该模块将用户查询、领域规则和工具建议进行融合,生成重构后的输入;4) 工具调用智能体,接收重构后的输入,并进行工具调用;5) 结果反馈模块,将工具调用结果反馈给用户。整个流程旨在通过输入重构,提升工具调用智能体的性能。
关键创新:IRMA框架的关键创新在于其自动化的输入重构机制。与传统方法直接将用户查询输入LLM不同,IRMA通过领域规则和工具建议对用户查询进行增强和修正,从而使LLM能够更好地理解用户意图,并选择合适的工具。这种输入重构机制能够有效减少LLM在复杂动态环境中出现推理错误的可能性。
关键设计:输入重构模块是IRMA框架的关键。该模块的设计需要考虑如何有效地融合用户查询、领域规则和工具建议。具体实现方式未知,但可以推测可能使用了某种形式的知识图谱或规则引擎来检索相关的领域知识,并使用自然语言生成技术来生成重构后的输入。具体的参数设置、损失函数和网络结构等技术细节在论文中未明确说明,属于未知信息。
🖼️ 关键图片
📊 实验亮点
实验结果表明,IRMA框架在$τ$-bench基准测试中显著优于其他方法。在整体pass^5得分方面,IRMA分别比ReAct、函数调用和自反思高出16.1%、12.7%和19.1%。这些数据表明,IRMA在动态环境中具有更高的可靠性和一致性,能够更有效地利用工具完成复杂任务。
🎯 应用场景
该研究成果可应用于各种需要LLM进行工具使用的复杂动态环境,例如智能客服、自动化运维、智能家居控制等。通过提升LLM工具使用的准确性和可靠性,可以显著提高这些应用的智能化水平和用户体验,并降低人工干预的需求。未来,该技术有望进一步扩展到更广泛的领域,例如机器人控制、自动驾驶等。
📄 摘要(原文)
Recent advances in reasoning and planning capabilities of large language models (LLMs) have enabled their potential as autonomous agents capable of tool use in dynamic environments. However, in multi-turn conversational environments like $τ$-bench, these agents often struggle with consistent reasoning, adherence to domain-specific policies, and extracting correct information over a long horizon of tool-calls and conversation. To capture and mitigate these failures, we conduct a comprehensive manual analysis of the common errors occurring in the conversation trajectories. We then experiment with reformulations of inputs to the tool-calling agent for improvement in agent decision making. Finally, we propose the Input-Reformulation Multi-Agent (IRMA) framework, which automatically reformulates user queries augmented with relevant domain rules and tool suggestions for the tool-calling agent to focus on. The results show that IRMA significantly outperforms ReAct, Function Calling, and Self-Reflection by 16.1%, 12.7%, and 19.1%, respectively, in overall pass^5 scores. These findings highlight the superior reliability and consistency of IRMA compared to other methods in dynamic environments.