Try, Check and Retry: A Divide-and-Conquer Framework for Boosting Long-context Tool-Calling Performance of LLMs
作者: Kunfeng Chen, Qihuang Zhong, Juhua Liu, Bo Du, Dacheng Tao
分类: cs.CL
发布日期: 2026-03-12
备注: 17 pages, 8 figures
💡 一句话要点
提出Tool-DC框架,提升LLM在长上下文工具调用中的性能
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 长上下文 工具调用 大型语言模型 分而治之 自我反思 提示工程 模型训练
📋 核心要点
- 现有工具调用方法在处理长上下文和大量噪声候选工具时面临挑战,限制了实际应用。
- Tool-DC框架采用“尝试-检查-重试”模式,分解复杂任务,利用LLM的自我反思能力。
- 实验结果表明,Tool-DC显著提升了工具调用性能,甚至使开源模型媲美闭源模型。
📝 摘要(中文)
本文提出Tool-DC,一种分而治之的框架,旨在提升大型语言模型(LLMs)在长上下文工具调用任务中的性能。现有方法难以处理大量且嘈杂的候选工具,限制了其在实际应用中的效果。Tool-DC的核心是通过“尝试-检查-重试”的模式,降低推理难度并充分利用LLMs的自我反思能力。Tool-DC包含两种变体:1) 免训练的Tool-DC (TF),即插即用且灵活;2) 基于训练的Tool-DC (TB),推理效率更高。大量实验表明,两种Tool-DC方法均明显优于其对应方法。Tool-DC (TF) 在BFCL和ACEBench基准测试中,平均增益高达+25.10%,而Tool-DC (TB) 使Qwen2.5-7B能够达到与专有LLMs(如OpenAI o3和Claude-Haiku-4.5)相当甚至更好的性能。
🔬 方法详解
问题定义:论文旨在解决长上下文工具调用任务中,大型语言模型难以有效利用大量候选工具的问题。现有方法在面对海量且包含噪声的工具选项时,推理难度显著增加,导致工具选择的准确率下降,严重限制了LLM在实际场景中的应用能力。
核心思路:Tool-DC的核心思路是将复杂的工具调用任务分解为更小的、易于管理的子任务,并通过“尝试-检查-重试”的迭代过程,引导LLM逐步逼近正确答案。这种分而治之的策略降低了单次推理的难度,同时利用LLM的自我反思能力来纠正错误,提高整体的工具调用性能。
技术框架:Tool-DC框架包含两个主要变体:Tool-DC (TF) 和 Tool-DC (TB)。两种变体都遵循“尝试-检查-重试”的范式。首先,LLM尝试选择合适的工具并生成调用参数;然后,框架检查LLM的选择是否合理,例如,参数是否符合规范,工具是否适用于当前任务;如果检查发现错误,框架会引导LLM重新尝试,直到选择出合适的工具并生成正确的参数。Tool-DC (TF) 是免训练的,直接利用LLM的prompting能力实现上述流程。Tool-DC (TB) 则通过训练一个额外的模型来辅助LLM进行工具选择和参数生成,从而提高推理效率。
关键创新:Tool-DC的关键创新在于其分而治之的策略和“尝试-检查-重试”的迭代模式。与传统的单步工具调用方法相比,Tool-DC能够更有效地利用LLM的推理能力和自我反思能力,从而在长上下文和大量候选工具的情况下,显著提高工具调用的准确率。此外,Tool-DC (TB) 通过引入额外的训练模型,进一步提高了推理效率。
关键设计:Tool-DC (TF) 的关键设计在于精心设计的prompt,用于引导LLM进行尝试、检查和重试。Tool-DC (TB) 的关键设计在于训练模型的选择和训练数据的构建。具体来说,可以选择一个较小的LLM作为辅助模型,并使用大量的工具调用数据进行训练,使其能够快速准确地选择合适的工具和生成参数。损失函数的设计需要考虑工具选择的准确性和参数生成的质量。
🖼️ 关键图片
📊 实验亮点
实验结果表明,Tool-DC (TF) 在BFCL和ACEBench基准测试中,平均增益高达+25.10%。Tool-DC (TB) 使Qwen2.5-7B能够达到与专有LLMs(如OpenAI o3和Claude-Haiku-4.5)相当甚至更好的性能,证明了该框架的有效性和优越性。尤其值得注意的是,Tool-DC (TB) 使得开源模型在工具调用任务上具备了与闭源模型竞争的能力。
🎯 应用场景
Tool-DC框架可广泛应用于需要LLM与外部环境交互的各种场景,例如智能客服、自动化运维、科学研究等。通过提升LLM的工具调用能力,可以实现更智能、更高效的自动化流程,降低人工成本,提高工作效率。未来,Tool-DC有望成为LLM应用的重要基础设施。
📄 摘要(原文)
Tool-calling empowers Large Language Models (LLMs) to interact with external environments. However, current methods often struggle to handle massive and noisy candidate tools in long-context tool-calling tasks, limiting their real-world application. To this end, we propose Tool-DC, a Divide-and-Conquer framework for boosting tool-calling performance of LLMs. The core of Tool-DC is to reduce the reasoning difficulty and make full use of self-reflection ability of LLMs via a "Try-Check-Retry" paradigm. Specifically, Tool-DC involves two variants: 1) the training-free Tool-DC (TF), which is plug-and-play and flexible; 2) the training-based Tool-DC (TB), which is more inference-efficient. Extensive experiments show that both Tool-DC methods outperform their counterparts by a clear margin. Tool-DC (TF) brings up to +25.10% average gains against the baseline on BFCL and ACEBench benchmarks, while Tool-DC (TB) enables Qwen2.5-7B to achieve comparable or even better performance than proprietary LLMs, e.g., OpenAI o3 and Claude-Haiku-4.5.