Case-Based Calibration of Adaptive Reasoning and Execution for LLM Tool Use

作者: Renning Pang, Tian Lan, Leyuan Liu, Piao Tong, Sheng Cao, Xiaosong Zhang

分类: cs.AI, cs.CL

发布日期: 2026-05-14

💡 一句话要点

提出CAST框架，利用案例校准LLM工具使用的自适应推理与执行

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 工具使用 案例推理 自适应推理 强化学习 结构有效性 奖励设计

📋 核心要点

现有LLM工具使用方法难以平衡推理深度和结构有效性，导致执行错误。
CAST框架将历史执行轨迹作为案例，提取复杂性和失败概况，指导自适应推理。
实验表明，CAST提高了执行准确率，减少了推理长度，提升了工具使用成功率。

📝 摘要（中文）

工具使用扩展了大型语言模型的参数知识，但可靠的执行需要在适当的推理深度和严格的结构有效性之间取得平衡。本文从基于案例的角度出发，提出了CAST，一个案例驱动的框架，将历史执行轨迹视为结构化案例。CAST不重用原始的示例输出，而是提取案例衍生的信号来识别复杂性概况，以估计最佳推理策略，以及失败概况以映射可能的结构性崩溃。该框架将这些知识转化为细粒度的奖励设计和自适应推理，使模型能够在强化学习期间自主地内化基于案例的策略。在BFCLv2和ToolBench上的实验表明，CAST提高了模式忠实执行和任务级工具使用成功率，同时减少了不必要的审议。该方法在整体执行准确率方面提高了高达5.85个百分点，并将平均推理长度减少了26%，显著减轻了高影响的结构性错误。最终，这证明了历史执行案例如何为校准工具使用提供可重用的适应知识。

🔬 方法详解

问题定义：大型语言模型（LLM）在工具使用方面面临挑战，即如何在保证结构有效性的前提下，进行足够深入的推理。现有的方法要么过度推理导致结构性错误，要么推理不足导致任务失败。痛点在于缺乏一种自适应的机制，能够根据任务的复杂程度动态调整推理策略，并有效避免已知的错误模式。

核心思路：CAST的核心思路是将历史执行轨迹视为结构化的案例库，从中学习任务的复杂性概况和失败模式。通过分析这些案例，CAST能够预测当前任务所需的推理深度，并识别可能导致结构性错误的环节。基于这些信息，CAST设计了一种细粒度的奖励机制，引导模型在强化学习过程中学习自适应的推理策略。

技术框架：CAST框架包含以下几个主要模块：1) 案例提取模块：从历史执行轨迹中提取结构化的案例，包括输入、输出、推理步骤等。2) 复杂性分析模块：分析案例的复杂程度，例如所需的推理步骤数量、涉及的工具数量等。3) 失败模式识别模块：识别案例中常见的结构性错误模式，例如参数错误、格式错误等。4) 自适应推理模块：根据复杂性分析和失败模式识别的结果，动态调整推理策略，例如增加或减少推理步骤、调整工具调用顺序等。5) 奖励设计模块：设计细粒度的奖励函数，鼓励模型进行有效的推理，并避免结构性错误。

关键创新：CAST的关键创新在于将案例推理的思想引入到LLM工具使用中，通过学习历史执行轨迹，实现自适应的推理策略。与现有方法相比，CAST能够更准确地预测任务的复杂程度，并更有效地避免结构性错误。此外，CAST的奖励设计是细粒度的，能够更有效地引导模型学习。

关键设计：CAST的关键设计包括：1) 案例表示：如何有效地表示历史执行轨迹，以便进行复杂性分析和失败模式识别。2) 复杂性度量：如何准确地度量任务的复杂程度，以便动态调整推理策略。3) 失败模式识别：如何有效地识别案例中常见的结构性错误模式。4) 奖励函数设计：如何设计细粒度的奖励函数，鼓励模型进行有效的推理，并避免结构性错误。具体参数设置和网络结构等细节在论文中进行了详细描述（未知）。

🖼️ 关键图片

📊 实验亮点

在BFCLv2和ToolBench数据集上的实验结果表明，CAST框架在整体执行准确率方面提高了高达5.85个百分点，并将平均推理长度减少了26%。这些结果表明，CAST能够有效地提高LLM工具使用的准确性和效率，并显著减轻高影响的结构性错误。与基线方法相比，CAST在各项指标上均取得了显著的提升。

🎯 应用场景

CAST框架可应用于各种需要LLM进行工具使用的场景，例如智能客服、自动化编程、科学研究等。通过提高工具使用的准确性和效率，CAST可以显著提升这些应用的性能和用户体验。未来，CAST可以进一步扩展到更复杂的任务和更广泛的工具集，为LLM的工具使用能力带来更大的提升。

📄 摘要（原文）

Tool use extends large language models beyond parametric knowledge, but reliable execution requires balancing appropriate reasoning depth with strict structural validity. We approach this problem from a case-based perspective to present CAST, a case-driven framework that treats historical execution trajectories as structured cases. Instead of reusing raw exemplar outputs, CAST extracts case-derived signals to identify complexity profiles for estimating optimal reasoning strategies, alongside failure profiles to map likely structural breakdowns. The framework translates this knowledge into a fine-grained reward design and adaptive reasoning, enabling the model to autonomously internalize case-based strategies during reinforcement learning. Experiments on BFCLv2 and ToolBench demonstrate that CAST improves both schema-faithful execution and task-level tool-use success while reducing unnecessary deliberation. The approach achieves up to 5.85 percentage points gain in overall execution accuracy and reduces average reasoning length by 26%, significantly mitigating high-impact structural errors. Ultimately, this demonstrates how historical execution cases can provide reusable adaptation knowledge for calibrated tool use.

Case-Based Calibration of Adaptive Reasoning and Execution for LLM Tool Use

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理