Prompting Policies for Multi-step Reasoning and Tool-Use in Black-box LLMs with Iterative Distillation of Experience
作者: Krishna Sayana, Ketan Todi, Ambarish Jash
分类: cs.AI, cs.LG, cs.MA
发布日期: 2026-05-14
备注: 10 pages and reference, appendix
💡 一句话要点
提出基于经验迭代蒸馏的提示策略,提升黑盒LLM在复杂推理和工具使用任务中的性能。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 提示工程 强化学习 大型语言模型 迭代蒸馏 黑盒模型 多步推理 工具使用
📋 核心要点
- 现有方法难以有效优化黑盒LLM的提示工程,通常依赖启发式方法,缺乏系统性。
- 提出一种基于强化学习的提示策略训练框架,通过迭代蒸馏经验来优化提示器模型。
- 实验表明,该方法在多步推理和工具使用任务上显著提升性能,并具有更高的样本效率。
📝 摘要(中文)
本文提出了一种强化学习框架,通过经验的迭代蒸馏来训练提示策略,以优化与冻结的“黑盒”大型语言模型(LLM)的交互。在该架构中,优化一个轻量级的提示器模型,以最大化大型冻结worker LLM在特定任务上的奖励。通过利用将标量奖励与密集文本评论相结合的对比经验缓冲区,该方法有效地将迭代提示改进分摊到单次策略权重中。实验分析集中在Big Bench Extra Hard (BBEH)和Tau-bench套件上,涵盖了多种多步骤推理和工具使用任务。结果表明,该方法取得了显著的提升,在逻辑密集型推理中的性能从55%提高到90%,在工具使用任务中的性能从74%提高到91%。此外,还分析了提示的结构演变,展示了策略如何发现专门的算法启发式方法。与GEPA等最先进的进化基线进行了全面比较,表明迭代蒸馏以更高的样本效率实现了卓越的性能。
🔬 方法详解
问题定义:论文旨在解决如何高效地为冻结的、黑盒大型语言模型(LLM)设计最优提示,以提升其在复杂推理和工具使用任务中的性能。现有方法,如手动提示工程或进化算法,通常效率低下,难以找到全局最优解,且缺乏对提示结构演变的深入理解。
核心思路:论文的核心思路是利用强化学习(RL)训练一个轻量级的“提示器”模型,该模型负责生成提示,并根据LLM的输出结果获得奖励。通过迭代蒸馏经验,将奖励信息和文本反馈融入到提示器模型的训练中,使其能够学习到更有效的提示策略。这种方法将提示优化问题转化为一个可学习的策略优化问题。
技术框架:整体框架包含两个主要部分:一个轻量级的“提示器”模型和一个冻结的“worker” LLM。提示器模型生成提示,worker LLM接收提示并执行任务,然后根据任务结果计算奖励。框架使用一个对比经验缓冲区,存储提示、LLM的输出、奖励以及文本评论。通过强化学习算法(具体算法未知)优化提示器模型,使其能够生成能够最大化奖励的提示。
关键创新:关键创新在于使用迭代蒸馏经验的方法来训练提示策略。通过对比经验缓冲区,将标量奖励与密集的文本评论相结合,有效地将迭代提示改进分摊到单次策略权重中。这种方法不仅提高了训练效率,还使得提示器模型能够学习到更细粒度的提示策略。
关键设计:论文的关键设计包括:1) 使用对比经验缓冲区来存储和利用经验;2) 将标量奖励与文本评论相结合,提供更丰富的反馈信号;3) 使用轻量级的提示器模型,降低训练成本;4) 针对不同的任务设计合适的奖励函数(具体奖励函数未知)。具体的网络结构和强化学习算法细节未明确说明。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在Big Bench Extra Hard (BBEH)和Tau-bench数据集上取得了显著的性能提升。在逻辑密集型推理任务中,性能从55%提高到90%;在工具使用任务中,性能从74%提高到91%。与GEPA等先进的进化算法相比,该方法在性能和样本效率方面均表现出优势。
🎯 应用场景
该研究成果可广泛应用于各种需要与大型语言模型交互的场景,例如智能客服、自动化报告生成、代码生成等。通过自动优化提示,可以显著提升LLM在特定任务上的性能,降低人工干预成本,并加速LLM在实际应用中的落地。未来,该方法有望扩展到更多类型的LLM和更复杂的任务。
📄 摘要(原文)
The shift toward interacting with frozen, "black-box" Large Language Models (LLMs) has transformed prompt engineering from a heuristic exercise into a critical optimization challenge. We propose a Reinforcement Learning (RL) framework for training learned prompting policies via iterative distillation of experience. In this architecture, a lightweight prompter model is optimized to maximize task-specific rewards for a larger, frozen worker LLM. By utilizing a contrastive experience buffer that couples scalar rewards with dense textual critiques, our approach effectively amortizes iterative prompt refinement into single-shot policy weights. Our experimental analysis focuses on the Big Bench Extra Hard (BBEH) and Tau-bench suites, covering a diverse range of multi-step reasoning and tool-use tasks. We demonstrate significant gains, improving performance from 55% to 90% in logic-intensive reasoning and 74% to 91% in tool-use tasks. Furthermore, we analyze the structural evolution of prompts, demonstrating how the policy discovers specialized algorithmic heuristics. We provide comprehensive comparisons against state-of-the-art evolutionary baselines like GEPA, showing that iterative distillation achieves superior performance with higher sample efficiency.