Prompting Policies for Multi-step Reasoning and Tool-Use in Black-box LLMs with Iterative Distillation of Experience

作者: Krishna Sayana, Ketan Todi, Ambarish Jash

分类: cs.AI, cs.LG, cs.MA

发布日期: 2026-05-14

备注: 10 pages and reference, appendix

💡 一句话要点

提出基于经验迭代蒸馏的提示策略，提升黑盒LLM在复杂推理和工具使用任务中的性能。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 提示工程 强化学习 大型语言模型 迭代蒸馏 黑盒模型 多步推理 工具使用

📋 核心要点

现有方法难以有效优化黑盒LLM的提示工程，通常依赖启发式方法，缺乏系统性。
提出一种基于强化学习的提示策略训练框架，通过迭代蒸馏经验来优化提示器模型。
实验表明，该方法在多步推理和工具使用任务上显著提升性能，并具有更高的样本效率。

📝 摘要（中文）

本文提出了一种强化学习框架，通过经验的迭代蒸馏来训练提示策略，以优化与冻结的“黑盒”大型语言模型（LLM）的交互。在该架构中，优化一个轻量级的提示器模型，以最大化大型冻结worker LLM在特定任务上的奖励。通过利用将标量奖励与密集文本评论相结合的对比经验缓冲区，该方法有效地将迭代提示改进分摊到单次策略权重中。实验分析集中在Big Bench Extra Hard (BBEH)和Tau-bench套件上，涵盖了多种多步骤推理和工具使用任务。结果表明，该方法取得了显著的提升，在逻辑密集型推理中的性能从55%提高到90%，在工具使用任务中的性能从74%提高到91%。此外，还分析了提示的结构演变，展示了策略如何发现专门的算法启发式方法。与GEPA等最先进的进化基线进行了全面比较，表明迭代蒸馏以更高的样本效率实现了卓越的性能。

🔬 方法详解

问题定义：论文旨在解决如何高效地为冻结的、黑盒大型语言模型（LLM）设计最优提示，以提升其在复杂推理和工具使用任务中的性能。现有方法，如手动提示工程或进化算法，通常效率低下，难以找到全局最优解，且缺乏对提示结构演变的深入理解。

核心思路：论文的核心思路是利用强化学习（RL）训练一个轻量级的“提示器”模型，该模型负责生成提示，并根据LLM的输出结果获得奖励。通过迭代蒸馏经验，将奖励信息和文本反馈融入到提示器模型的训练中，使其能够学习到更有效的提示策略。这种方法将提示优化问题转化为一个可学习的策略优化问题。

技术框架：整体框架包含两个主要部分：一个轻量级的“提示器”模型和一个冻结的“worker” LLM。提示器模型生成提示，worker LLM接收提示并执行任务，然后根据任务结果计算奖励。框架使用一个对比经验缓冲区，存储提示、LLM的输出、奖励以及文本评论。通过强化学习算法（具体算法未知）优化提示器模型，使其能够生成能够最大化奖励的提示。

关键创新：关键创新在于使用迭代蒸馏经验的方法来训练提示策略。通过对比经验缓冲区，将标量奖励与密集的文本评论相结合，有效地将迭代提示改进分摊到单次策略权重中。这种方法不仅提高了训练效率，还使得提示器模型能够学习到更细粒度的提示策略。

关键设计：论文的关键设计包括：1) 使用对比经验缓冲区来存储和利用经验；2) 将标量奖励与文本评论相结合，提供更丰富的反馈信号；3) 使用轻量级的提示器模型，降低训练成本；4) 针对不同的任务设计合适的奖励函数（具体奖励函数未知）。具体的网络结构和强化学习算法细节未明确说明。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该方法在Big Bench Extra Hard (BBEH)和Tau-bench数据集上取得了显著的性能提升。在逻辑密集型推理任务中，性能从55%提高到90%；在工具使用任务中，性能从74%提高到91%。与GEPA等先进的进化算法相比，该方法在性能和样本效率方面均表现出优势。

🎯 应用场景

该研究成果可广泛应用于各种需要与大型语言模型交互的场景，例如智能客服、自动化报告生成、代码生成等。通过自动优化提示，可以显著提升LLM在特定任务上的性能，降低人工干预成本，并加速LLM在实际应用中的落地。未来，该方法有望扩展到更多类型的LLM和更复杂的任务。

📄 摘要（原文）

The shift toward interacting with frozen, "black-box" Large Language Models (LLMs) has transformed prompt engineering from a heuristic exercise into a critical optimization challenge. We propose a Reinforcement Learning (RL) framework for training learned prompting policies via iterative distillation of experience. In this architecture, a lightweight prompter model is optimized to maximize task-specific rewards for a larger, frozen worker LLM. By utilizing a contrastive experience buffer that couples scalar rewards with dense textual critiques, our approach effectively amortizes iterative prompt refinement into single-shot policy weights. Our experimental analysis focuses on the Big Bench Extra Hard (BBEH) and Tau-bench suites, covering a diverse range of multi-step reasoning and tool-use tasks. We demonstrate significant gains, improving performance from 55% to 90% in logic-intensive reasoning and 74% to 91% in tool-use tasks. Furthermore, we analyze the structural evolution of prompts, demonstrating how the policy discovers specialized algorithmic heuristics. We provide comprehensive comparisons against state-of-the-art evolutionary baselines like GEPA, showing that iterative distillation achieves superior performance with higher sample efficiency.

Prompting Policies for Multi-step Reasoning and Tool-Use in Black-box LLMs with Iterative Distillation of Experience

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理