Think Outside the Policy: In-Context Steered Policy Optimization

📄 arXiv: 2510.26519v2 📥 PDF

作者: Hsiu-Yuan Huang, Chenming Tang, Weijie Liu, Clive Bai, Saiyong Yang, Yunfang Wu

分类: cs.LG

发布日期: 2025-10-30 (更新: 2026-01-07)

备注: Preprint


💡 一句话要点

提出ICPO,利用上下文学习引导策略优化,提升大型推理模型在可验证奖励强化学习中的推理能力。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 强化学习 大型推理模型 上下文学习 策略优化 可验证奖励

📋 核心要点

  1. 现有RLVR方法依赖on-policy rollout,探索不足,限制了轨迹多样性,阻碍了推理能力的进一步提升。
  2. ICPO利用LRM的上下文学习能力,通过混合策略GRPO和隐式专家强制,扩展探索范围,无需依赖昂贵的专家模型。
  3. 实验表明,ICPO在数学推理基准上显著提升了RLVR的性能和训练稳定性,验证了其有效性和可扩展性。

📝 摘要(中文)

现有的基于可验证奖励的强化学习(RLVR)方法,如Group Relative Policy Optimization (GRPO),在提升大型推理模型(LRM)的推理能力方面取得了显著进展。然而,由于依赖于受当前策略分布限制的on-policy rollout,它们表现出有限的探索能力,导致轨迹多样性不足。最近的方法试图通过整合来自更强大的专家模型生成的轨迹来扩展策略覆盖范围,但这种依赖增加了计算成本,并且这种先进的模型通常难以获得。为了解决这些问题,我们提出了In-Context Steered Policy Optimization (ICPO),这是一个统一的框架,它利用LRM固有的上下文学习能力,使用现有数据集提供专家指导。ICPO引入了具有隐式专家强制的混合策略GRPO,它扩展了当前策略分布之外的探索,而无需高级LRM轨迹。为了进一步稳定优化,ICPO集成了专家区域拒绝采样来过滤不可靠的off-policy轨迹,并采用退火专家奖励塑造来平衡早期专家指导与后期自主改进。结果表明,ICPO持续增强了数学推理基准上的RLVR性能和训练稳定性,揭示了一种可扩展且有效的LRM的RLVR范例。

🔬 方法详解

问题定义:论文旨在解决大型推理模型(LRM)在可验证奖励强化学习(RLVR)中探索不足的问题。现有方法,如GRPO,主要依赖于on-policy rollout,导致生成的轨迹多样性有限,难以充分探索状态空间,从而限制了LRM推理能力的提升。同时,利用更强大的专家模型进行指导虽然有效,但计算成本高昂且专家模型不易获取。

核心思路:ICPO的核心思路是利用LRM固有的上下文学习能力,通过在上下文中提供专家指导来扩展策略的探索范围,而无需直接依赖外部专家模型。具体来说,ICPO通过混合策略GRPO,将来自不同策略的轨迹混合在一起,从而鼓励模型探索更广泛的状态空间。同时,通过隐式专家强制,利用现有数据集中的信息来引导策略学习,避免了对昂贵专家模型的依赖。

技术框架:ICPO的整体框架包含以下几个主要模块:1) 混合策略GRPO:通过混合来自不同策略的轨迹来扩展探索范围。2) 隐式专家强制:利用现有数据集中的信息,通过上下文学习的方式引导策略学习。3) 专家区域拒绝采样:过滤掉不可靠的off-policy轨迹,保证训练的稳定性。4) 退火专家奖励塑造:在训练初期给予更多的专家指导,随着训练的进行,逐渐减少专家指导的权重,鼓励模型自主学习。

关键创新:ICPO的关键创新在于利用LRM的上下文学习能力,将专家指导融入到策略优化过程中,而无需直接依赖外部专家模型。这种方法不仅降低了计算成本,也提高了策略探索的效率。此外,专家区域拒绝采样和退火专家奖励塑造进一步提高了训练的稳定性和性能。

关键设计:ICPO的关键设计包括:1) 混合策略的比例:需要仔细调整混合策略中不同策略的比例,以平衡探索和利用。2) 专家区域的定义:需要根据具体任务定义合适的专家区域,以保证专家指导的有效性。3) 退火策略:需要设计合适的退火策略,以平衡早期专家指导和后期自主学习。论文中具体参数设置未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,ICPO在数学推理基准上显著提升了RLVR的性能和训练稳定性。具体来说,ICPO在多个数据集上都取得了优于现有方法的性能,并且训练过程更加稳定,收敛速度更快。这些结果验证了ICPO的有效性和可扩展性,表明其是一种有前景的LRM的RLVR范例。具体提升幅度未知。

🎯 应用场景

ICPO具有广泛的应用前景,可以应用于各种需要大型推理模型的强化学习任务中,例如数学推理、代码生成、自然语言处理等。该方法可以有效提升模型的推理能力和泛化能力,降低对昂贵专家模型的依赖,具有重要的实际价值。未来,ICPO可以进一步扩展到其他类型的强化学习问题,并与其他技术相结合,例如模仿学习、元学习等,以实现更强大的智能系统。

📄 摘要(原文)

Existing Reinforcement Learning from Verifiable Rewards (RLVR) methods, such as Group Relative Policy Optimization (GRPO), have achieved remarkable progress in improving the reasoning capabilities of Large Reasoning Models (LRMs). However, they exhibit limited exploration due to reliance on on-policy rollouts which are confined to the current policy's distribution, resulting in narrow trajectory diversity. Recent approaches attempt to expand policy coverage by incorporating trajectories generated from stronger expert models, yet this reliance increases computational cost and such advanced models are often inaccessible. To address these issues, we propose In-Context Steered Policy Optimization (ICPO), a unified framework that leverages the inherent in-context learning capability of LRMs to provide expert guidance using existing datasets. ICPO introduces mixed-policy GRPO with implicit expert forcing, which expands exploration beyond the current policy distribution without requiring advanced LRM trajectories. To further stabilize optimization, ICPO integrates expert region reject sampling to filter unreliable off-policy trajectories and annealed expert-bonus reward shaping to balance early expert guidance with later autonomous improvement. Results demonstrate that ICPO consistently enhances RLVR performance and training stability on mathematical reasoning benchmarks, revealing a scalable and effective RLVR paradigm for LRMs. Our code is available at https://anonymous.4open.science/r/ICPO.