P^2O: Joint Policy and Prompt Optimization
作者: Xinyu Lu, Kaiqi Zhang, Jinglin Yang, Boxi Cao, Yaojie Lu, Hongyu Lin, Min He, Xianpei Han, Le Sun
分类: cs.LG, cs.AI
发布日期: 2026-03-23
💡 一句话要点
提出P^2O框架,联合优化策略与提示,提升LLM在困难样本上的推理能力。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 强化学习 大型语言模型 提示优化 策略优化 困难样本 推理能力 泛化能力
📋 核心要点
- 传统RLVR在处理成功率低的困难样本时,由于奖励稀疏,模型难以获得有效的监督信号。
- P^2O框架通过联合优化策略和提示,利用遗传帕累托算法生成引导模型发现成功轨迹的提示模板。
- 实验表明,P^2O在同分布和异分布数据集上均表现出色,泛化能力强,性能提升显著。
📝 摘要(中文)
本文提出了一种名为P^2O的新框架,旨在提升大型语言模型(LLM)在可验证奖励强化学习(RLVR)中的推理能力。传统的RLVR在处理“困难样本”时效率低下,因为这些样本的成功率接近于零,导致模型缺乏有效的监督信号。P^2O通过结合提示优化和策略优化来解决这个问题。该框架在训练迭代中识别困难样本,并利用GeneticPareto (GEPA)提示优化算法来演化提示模板,引导模型发现成功的轨迹。与依赖输入增强的传统提示工程方法不同,P^2O将这些优化提示带来的推理增益直接提炼到模型参数中,为困难样本提供更密集的正向监督信号,加速收敛。实验结果表明,P^2O不仅在同分布数据集上取得了优异的性能,而且具有很强的泛化能力,在异分布基准测试中也取得了显著的改进(平均+4.7%)。
🔬 方法详解
问题定义:论文旨在解决大型语言模型在可验证奖励强化学习(RLVR)中,由于“困难样本”成功率低导致的探索效率低下问题。现有方法依赖稀疏奖励,导致模型在面对困难样本时无法获得有效的监督信号,难以学习到正确的推理策略。
核心思路:P^2O的核心思路是联合优化策略和提示。通过提示优化,引导模型在困难样本上找到成功的轨迹,从而为策略优化提供更密集的正向监督信号。这种方法将提示工程的优势融入到模型参数的学习中,避免了传统提示工程依赖输入增强的局限性。
技术框架:P^2O框架包含两个主要模块:策略优化模块和提示优化模块。在训练迭代中,首先利用策略优化模块进行初步训练。然后,识别出困难样本,并将其输入到提示优化模块。提示优化模块使用GeneticPareto (GEPA)算法生成优化后的提示模板。最后,利用优化后的提示模板生成的数据来进一步训练策略优化模块,从而将提示带来的推理增益融入到模型参数中。
关键创新:P^2O的关键创新在于将提示优化与策略优化相结合,并直接将提示带来的推理增益提炼到模型参数中。与传统的提示工程方法不同,P^2O不需要在推理阶段依赖提示,而是通过训练使模型自身具备利用提示进行推理的能力。
关键设计:P^2O使用GeneticPareto (GEPA)算法进行提示优化。GEPA算法是一种基于遗传算法的帕累托优化方法,可以同时优化多个目标,例如成功率和提示的简洁性。在策略优化方面,可以使用任何标准的强化学习算法,例如PPO或DQN。损失函数通常包括强化学习损失和提示蒸馏损失,以确保模型能够学习到提示带来的推理增益。
🖼️ 关键图片
📊 实验亮点
实验结果表明,P^2O在同分布数据集上取得了优异的性能,并且在异分布基准测试中也取得了显著的改进(平均+4.7%)。这表明P^2O不仅能够提升LLM在特定任务上的性能,而且具有很强的泛化能力。与传统的RLVR方法相比,P^2O能够更快地收敛,并取得更高的最终性能。
🎯 应用场景
P^2O框架可应用于各种需要LLM进行复杂推理的任务,例如数学问题求解、代码生成、知识图谱推理等。该方法能够提升LLM在困难场景下的性能,并提高模型的泛化能力,使其在实际应用中更具鲁棒性。此外,P^2O还可以用于自动化提示工程,降低人工设计提示的成本。
📄 摘要(原文)
Reinforcement Learning with Verifiable Rewards (RLVR) has emerged as a powerful paradigm for enhancing the reasoning capabilities of Large Language Models (LLMs). However, vanilla RLVR suffers from inefficient exploration, particularly when confronting "hard samples" that yield nearzero success rates. In such scenarios, the reliance on sparse outcome rewards typically results in zero-advantage estimates, effectively starving the model of supervision signals despite the high informational value of these instances. To address this, we propose P^2O, a novel framework that synergizes Prompt Optimization with Policy Optimization. P^2O identifies hard samples during training iterations and leverages the GeneticPareto (GEPA) prompt optimization algorithm to evolve prompt templates that guide the model toward discovering successful trajectories. Crucially, unlike traditional prompt engineering methods that rely on input augmentation, P^2O distills the reasoning gains induced by these optimized prompts directly into the model parameters. This mechanism provides denser positive supervision signals for hard samples and accelerates convergence. Extensive experiments demonstrate that P^2O not only achieves superior performance on in-distribution datasets but also exhibits strong generalization, yielding substantial improvements on out-of-distribution benchmarks (+4.7% avg.).