Try, Check and Retry: A Divide-and-Conquer Framework for Boosting Long-context Tool-Calling Performance of LLMs

作者: Kunfeng Chen, Qihuang Zhong, Juhua Liu, Bo Du, Dacheng Tao

分类: cs.CL

发布日期: 2026-03-12

备注: 17 pages, 8 figures

💡 一句话要点

提出Tool-DC框架，提升LLM在长上下文工具调用中的性能

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 长上下文 工具调用 大型语言模型 分而治之 自我反思 提示工程 模型训练

📋 核心要点

现有工具调用方法在处理长上下文和大量噪声候选工具时面临挑战，限制了实际应用。
Tool-DC框架采用“尝试-检查-重试”模式，分解复杂任务，利用LLM的自我反思能力。
实验结果表明，Tool-DC显著提升了工具调用性能，甚至使开源模型媲美闭源模型。

📝 摘要（中文）

本文提出Tool-DC，一种分而治之的框架，旨在提升大型语言模型（LLMs）在长上下文工具调用任务中的性能。现有方法难以处理大量且嘈杂的候选工具，限制了其在实际应用中的效果。Tool-DC的核心是通过“尝试-检查-重试”的模式，降低推理难度并充分利用LLMs的自我反思能力。Tool-DC包含两种变体：1) 免训练的Tool-DC (TF)，即插即用且灵活；2) 基于训练的Tool-DC (TB)，推理效率更高。大量实验表明，两种Tool-DC方法均明显优于其对应方法。Tool-DC (TF) 在BFCL和ACEBench基准测试中，平均增益高达+25.10%，而Tool-DC (TB) 使Qwen2.5-7B能够达到与专有LLMs（如OpenAI o3和Claude-Haiku-4.5）相当甚至更好的性能。

🔬 方法详解

问题定义：论文旨在解决长上下文工具调用任务中，大型语言模型难以有效利用大量候选工具的问题。现有方法在面对海量且包含噪声的工具选项时，推理难度显著增加，导致工具选择的准确率下降，严重限制了LLM在实际场景中的应用能力。

核心思路：Tool-DC的核心思路是将复杂的工具调用任务分解为更小的、易于管理的子任务，并通过“尝试-检查-重试”的迭代过程，引导LLM逐步逼近正确答案。这种分而治之的策略降低了单次推理的难度，同时利用LLM的自我反思能力来纠正错误，提高整体的工具调用性能。

技术框架：Tool-DC框架包含两个主要变体：Tool-DC (TF) 和 Tool-DC (TB)。两种变体都遵循“尝试-检查-重试”的范式。首先，LLM尝试选择合适的工具并生成调用参数；然后，框架检查LLM的选择是否合理，例如，参数是否符合规范，工具是否适用于当前任务；如果检查发现错误，框架会引导LLM重新尝试，直到选择出合适的工具并生成正确的参数。Tool-DC (TF) 是免训练的，直接利用LLM的prompting能力实现上述流程。Tool-DC (TB) 则通过训练一个额外的模型来辅助LLM进行工具选择和参数生成，从而提高推理效率。

关键创新：Tool-DC的关键创新在于其分而治之的策略和“尝试-检查-重试”的迭代模式。与传统的单步工具调用方法相比，Tool-DC能够更有效地利用LLM的推理能力和自我反思能力，从而在长上下文和大量候选工具的情况下，显著提高工具调用的准确率。此外，Tool-DC (TB) 通过引入额外的训练模型，进一步提高了推理效率。

关键设计：Tool-DC (TF) 的关键设计在于精心设计的prompt，用于引导LLM进行尝试、检查和重试。Tool-DC (TB) 的关键设计在于训练模型的选择和训练数据的构建。具体来说，可以选择一个较小的LLM作为辅助模型，并使用大量的工具调用数据进行训练，使其能够快速准确地选择合适的工具和生成参数。损失函数的设计需要考虑工具选择的准确性和参数生成的质量。

🖼️ 关键图片

📊 实验亮点

实验结果表明，Tool-DC (TF) 在BFCL和ACEBench基准测试中，平均增益高达+25.10%。Tool-DC (TB) 使Qwen2.5-7B能够达到与专有LLMs（如OpenAI o3和Claude-Haiku-4.5）相当甚至更好的性能，证明了该框架的有效性和优越性。尤其值得注意的是，Tool-DC (TB) 使得开源模型在工具调用任务上具备了与闭源模型竞争的能力。

🎯 应用场景

Tool-DC框架可广泛应用于需要LLM与外部环境交互的各种场景，例如智能客服、自动化运维、科学研究等。通过提升LLM的工具调用能力，可以实现更智能、更高效的自动化流程，降低人工成本，提高工作效率。未来，Tool-DC有望成为LLM应用的重要基础设施。

📄 摘要（原文）

Tool-calling empowers Large Language Models (LLMs) to interact with external environments. However, current methods often struggle to handle massive and noisy candidate tools in long-context tool-calling tasks, limiting their real-world application. To this end, we propose Tool-DC, a Divide-and-Conquer framework for boosting tool-calling performance of LLMs. The core of Tool-DC is to reduce the reasoning difficulty and make full use of self-reflection ability of LLMs via a "Try-Check-Retry" paradigm. Specifically, Tool-DC involves two variants: 1) the training-free Tool-DC (TF), which is plug-and-play and flexible; 2) the training-based Tool-DC (TB), which is more inference-efficient. Extensive experiments show that both Tool-DC methods outperform their counterparts by a clear margin. Tool-DC (TF) brings up to +25.10% average gains against the baseline on BFCL and ACEBench benchmarks, while Tool-DC (TB) enables Qwen2.5-7B to achieve comparable or even better performance than proprietary LLMs, e.g., OpenAI o3 and Claude-Haiku-4.5.

Try, Check and Retry: A Divide-and-Conquer Framework for Boosting Long-context Tool-Calling Performance of LLMs

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理