Trust-Region Adaptive Policy Optimization

作者: Mingyu Su, Jian Guan, Yuxian Gu, Minlie Huang, Hongning Wang

分类: cs.LG, cs.AI

发布日期: 2025-12-19

💡 一句话要点

提出TRAPO框架，交错SFT与RL优化LLM推理能力，提升探索与稳定性。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 强化学习 监督微调 推理能力 信任区域优化

📋 核心要点

现有SFT-then-RL方法存在SFT抑制探索和导致遗忘的问题，限制了RL的改进潜力。
TRAPO框架交错SFT和RL，统一外部监督和自我探索，并引入TrSFT稳定训练。
实验表明，TRAPO在数学推理任务上超越了SFT、RL和SFT-then-RL等基线方法。

📝 摘要（中文）

后训练方法，特别是监督微调（SFT）和强化学习（RL），在提升大型语言模型（LLMs）的复杂推理能力方面发挥着重要作用。然而，主流的两阶段流程（先SFT再RL）存在关键的不一致性：SFT强制刚性模仿，抑制了探索并导致遗忘，限制了RL的改进潜力。我们提出了TRAPO（Trust-Region Adaptive Policy Optimization），这是一个混合框架，通过在每个训练实例中交错SFT和RL来解决这种低效问题，通过优化专家前缀上的SFT损失和模型自身完成上的RL损失，统一了外部监督和自我探索。为了稳定训练，我们引入了Trust-Region SFT（TrSFT），它在信任区域内最小化前向KL散度，但在外部衰减优化，有效地转向反向KL，并产生有利于RL的稳定、模式寻求更新。自适应前缀选择机制进一步根据测量的效用分配专家指导。在五个数学推理基准上的实验表明，TRAPO始终超越标准SFT、RL和SFT-then-RL流程，以及最近最先进的方法，为推理增强的LLM建立了一个强大的新范式。

🔬 方法详解

问题定义：现有的大语言模型训练流程中，通常采用先进行监督微调（SFT），然后再进行强化学习（RL）的方式。这种两阶段的方式存在问题，SFT阶段过度依赖专家数据，导致模型探索能力不足，并且容易遗忘之前学习到的知识，限制了后续RL阶段的优化潜力。因此，如何平衡模仿学习和探索学习，是本文要解决的核心问题。

核心思路：TRAPO的核心思路是将SFT和RL交错进行，在每个训练样本中同时利用专家数据和模型自身的生成结果进行优化。具体来说，模型在专家给出的前缀（prefix）上进行SFT，而在模型自身生成的补全（completion）上进行RL。这样既能利用专家知识进行指导，又能鼓励模型进行自我探索，从而提高模型的推理能力。

技术框架：TRAPO框架包含以下几个主要组成部分：1) 交错的SFT和RL优化：在每个训练迭代中，模型同时优化SFT损失和RL损失。SFT损失基于专家前缀，RL损失基于模型自身的补全。2) Trust-Region SFT (TrSFT)：为了稳定训练，引入TrSFT，限制SFT的更新幅度，避免过度拟合专家数据。3) 自适应前缀选择：根据模型在不同前缀上的表现，动态调整专家指导的强度。

关键创新：TRAPO的关键创新在于将SFT和RL融合到一个统一的框架中，避免了传统两阶段方法的弊端。通过交错优化，模型能够更好地平衡模仿学习和探索学习，从而提高推理能力。TrSFT的引入进一步稳定了训练过程，避免了过度拟合。

关键设计：TrSFT通过限制SFT的更新幅度来稳定训练。具体来说，TrSFT在信任区域内最小化前向KL散度，而在信任区域外衰减优化，从而有效地转向反向KL散度。这种设计能够避免模型过度拟合专家数据，并鼓励模型进行自我探索。自适应前缀选择机制根据模型在不同前缀上的表现，动态调整专家指导的强度，从而更好地利用专家知识。

🖼️ 关键图片

📊 实验亮点

实验结果表明，TRAPO在五个数学推理基准上均取得了显著的性能提升，超越了标准的SFT、RL和SFT-then-RL流程，以及其他先进方法。例如，在某些基准上，TRAPO的准确率提升了超过10个百分点，证明了其有效性。

🎯 应用场景

TRAPO框架可应用于各种需要复杂推理能力的大语言模型任务，例如数学问题求解、代码生成、逻辑推理等。该方法能够提升模型的推理准确性和泛化能力，具有广泛的应用前景。此外，TRAPO的训练范式也可以推广到其他类型的后训练任务中，例如对话生成、文本摘要等。

📄 摘要（原文）

Post-training methods, especially Supervised Fine-Tuning (SFT) and Reinforcement Learning (RL), play an important role in improving large language models' (LLMs) complex reasoning abilities. However, the dominant two-stage pipeline (SFT then RL) suffers from a key inconsistency: SFT enforces rigid imitation that suppresses exploration and induces forgetting, limiting RL's potential for improvements. We address this inefficiency with TRAPO (\textbf{T}rust-\textbf{R}egion \textbf{A}daptive \textbf{P}olicy \textbf{O}ptimization), a hybrid framework that interleaves SFT and RL within each training instance by optimizing SFT loss on expert prefixes and RL loss on the model's own completions, unifying external supervision and self-exploration. To stabilize training, we introduce Trust-Region SFT (TrSFT), which minimizes forward KL divergence inside a trust region but attenuates optimization outside, effectively shifting toward reverse KL and yielding stable, mode-seeking updates favorable for RL. An adaptive prefix-selection mechanism further allocates expert guidance based on measured utility. Experiments on five mathematical reasoning benchmarks show that TRAPO consistently surpasses standard SFT, RL, and SFT-then-RL pipelines, as well as recent state-of-the-art approaches, establishing a strong new paradigm for reasoning-enhanced LLMs.

Trust-Region Adaptive Policy Optimization

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理