Self-Guided Function Calling in Large Language Models via Stepwise Experience Recall

作者: Sijia Cui, Aiyao He, Shuai Xu, Hongming Zhang, Yanna Wang, Qingyang Zhang, Yajing Wang, Bo Xu

分类: cs.CL

发布日期: 2025-08-21 (更新: 2025-09-17)

备注: Accepted to EMNLP 2025

💡 一句话要点

提出SEER，通过逐步经验回忆实现大语言模型中的自引导函数调用

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 函数调用 工具使用 经验学习 自引导 逐步检索 知识库 智能Agent

📋 核心要点

现有方法在多步工具使用场景中，依赖人工设计的演示或检索，专家成本高，提示工程复杂。
SEER通过逐步检索并更新经验池，实现对过去成功经验的复用，从而自适应地提升模型性能。
实验表明，SEER在ToolQA和$τ$-bench基准测试中均取得了显著的性能提升，尤其是在真实世界领域。

📝 摘要（中文）

本文提出了一种自引导方法，即逐步经验回忆（SEER），用于增强大语言模型（LLMs）的函数调用能力。该方法通过从持续更新的经验池中进行细粒度的、逐步检索来实现。与依赖静态或手动管理的库不同，SEER通过过去的成功轨迹逐步扩充经验池，从而实现池的持续扩展并提高模型的性能。在ToolQA基准测试中，SEER在简单和困难问题上分别实现了平均6.1%和4.7%的改进。此外，在包含两个真实世界领域的$τ$-bench上，由Qwen2.5-7B和Qwen2.5-72B模型驱动的SEER分别展示了7.44%和23.38%的显著准确率提升。

🔬 方法详解

问题定义：大语言模型在面对需要多步骤工具调用的复杂任务时，难以有效地进行工具选择、参数生成和工具链规划。现有的方法依赖于人工设计特定任务的演示示例，或者从预先构建的库中检索信息。这些方法需要大量的人工干预，并且随着工具种类和任务难度的增加，提示工程变得越来越复杂和低效。

核心思路：SEER的核心思路是利用过去成功的经验来指导未来的工具调用过程。通过维护一个动态更新的经验池，模型可以逐步学习并改进其工具使用策略。这种方法避免了对静态或手动管理库的依赖，而是通过自我学习和经验积累来提升性能。

技术框架：SEER的技术框架主要包括以下几个阶段：1) 问题输入：接收用户的问题或任务描述。2) 经验检索：从经验池中检索与当前问题相关的历史轨迹。3) 工具调用：基于检索到的经验，选择合适的工具并生成相应的参数。4) 结果反馈：执行工具调用，并将结果反馈给模型。5) 经验更新：如果工具调用成功，则将本次轨迹添加到经验池中，用于未来的学习。

关键创新：SEER最重要的技术创新点在于其自引导和逐步经验回忆的机制。与传统的依赖人工标注或静态库的方法不同，SEER能够通过自我学习和经验积累来不断提升性能。这种方法更加灵活和可扩展，能够适应不断变化的工具和任务环境。

关键设计：SEER的关键设计包括：1) 经验池的构建：经验池存储了过去成功的工具调用轨迹，包括问题描述、工具选择、参数生成和执行结果等信息。2) 检索策略：采用细粒度的、逐步检索策略，根据当前问题的状态逐步检索相关的经验。3) 更新机制：定期或在每次成功调用后更新经验池，确保经验池中的信息是最新的和有效的。具体的参数设置、损失函数和网络结构等技术细节在论文中未明确给出，属于未知信息。

🖼️ 关键图片

📊 实验亮点

SEER在ToolQA基准测试中，在简单和困难问题上分别实现了平均6.1%和4.7%的改进。在$τ$-bench基准测试中，使用Qwen2.5-7B和Qwen2.5-72B模型，SEER分别取得了7.44%和23.38%的显著准确率提升。尤其是在真实世界领域，$τ$-bench上的大幅提升表明SEER在实际应用中具有很强的潜力。

🎯 应用场景

SEER具有广泛的应用前景，例如智能客服、自动化运维、科学研究等领域。它可以帮助LLM更好地理解用户意图，并利用各种工具和API来完成复杂的任务。通过不断学习和积累经验，SEER可以提高LLM的智能化水平，并为用户提供更加高效和便捷的服务。未来，SEER有望成为LLM与外部世界交互的重要桥梁。

📄 摘要（原文）

Function calling enables large language models (LLMs) to interact with external systems by leveraging tools and APIs. When faced with multi-step tool usage, LLMs still struggle with tool selection, parameter generation, and tool-chain planning. Existing methods typically rely on manually designing task-specific demonstrations, or retrieving from a curated library. These approaches demand substantial expert effort and prompt engineering becomes increasingly complex and inefficient as tool diversity and task difficulty scale. To address these challenges, we propose a self-guided method, Stepwise Experience Recall (SEER), which performs fine-grained, stepwise retrieval from a continually updated experience pool. Instead of relying on static or manually curated library, SEER incrementally augments the experience pool with past successful trajectories, enabling continuous expansion of the pool and improved model performance over time. Evaluated on the ToolQA benchmark, SEER achieves an average improvement of 6.1% on easy and 4.7% on hard questions. We further test SEER on $τ$-bench, which includes two real-world domains. Powered by Qwen2.5-7B and Qwen2.5-72B models, SEER demonstrates substantial accuracy gains of 7.44% and 23.38%, respectively.

Self-Guided Function Calling in Large Language Models via Stepwise Experience Recall

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理