Bridging SFT and RL: Dynamic Policy Optimization for Robust Reasoning
作者: Taojie Zhu, Dongyang Xu, Ding Zou, Sen Zhao, Qiaobo Hao, Zhiguo Yang, Yonghong He
分类: cs.LG
发布日期: 2026-04-10
备注: ACL 2026 findings
🔗 代码/项目: GITHUB
💡 一句话要点
提出DYPO框架,通过动态策略优化提升LLM在复杂推理任务中的鲁棒性。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 强化学习 监督微调 动态策略优化 偏差-方差权衡
📋 核心要点
- SFT和RL在LLM后训练中存在偏差-方差权衡的根本矛盾,简单加权无法有效解决。
- DYPO通过群体对齐损失、多教师蒸馏和动态探索-利用门控机制,结构性地缓解SFT和RL的冲突。
- 实验结果表明,DYPO在复杂推理和分布外任务中显著优于传统方法,平均提升分别达到4.8%和13.3%。
📝 摘要(中文)
大型语言模型(LLM)的后训练范式,主要是监督微调(SFT)和强化学习(RL),面临着一个根本性的困境:SFT提供稳定性(低方差)但存在高拟合偏差,而RL能够进行探索(低偏差)但存在高梯度方差。现有的统一优化策略通常采用简单的损失加权,忽略了这些不同梯度信号之间的统计冲突。本文对这种偏差-方差权衡进行了严格的理论分析,并提出了DYPO(动态策略优化),一个旨在结构性地缓解这种冲突的统一框架。DYPO集成了三个核心组件:(1)利用内在群体动态来显著降低RL梯度方差的群体对齐损失(GAL);(2)通过多样化的推理路径来纠正SFT拟合偏差的多教师蒸馏机制;(3)基于奖励反馈自适应地在稳定SFT和探索性RL之间进行仲裁的动态探索-利用门控机制。理论分析证实,DYPO线性地降低了拟合偏差并最小化了总体方差。大量实验表明,DYPO显著优于传统的顺序pipeline,在复杂推理基准测试中平均提高了4.8%,在分布外任务中提高了13.3%。我们的代码已在https://github.com/Tocci-Zhu/DYPO上公开发布。
🔬 方法详解
问题定义:现有的大型语言模型(LLM)后训练方法,如监督微调(SFT)和强化学习(RL),存在偏差-方差的权衡问题。SFT虽然稳定,但容易过拟合训练数据,导致泛化能力差;RL虽然能够探索更多可能性,但梯度方差大,训练不稳定。简单地对SFT和RL的损失进行加权,无法有效解决二者之间的冲突,导致模型性能提升有限。
核心思路:DYPO的核心思路是通过动态策略优化,结构性地缓解SFT和RL之间的偏差-方差冲突。具体来说,DYPO通过群体对齐损失(GAL)降低RL的梯度方差,通过多教师蒸馏纠正SFT的拟合偏差,并通过动态探索-利用门控机制自适应地平衡SFT的稳定性和RL的探索性。这种设计旨在充分利用SFT和RL的优势,同时克服各自的缺点,从而提升模型的整体性能。
技术框架:DYPO框架包含三个主要模块:1) 群体对齐损失(GAL):用于降低RL训练过程中的梯度方差,提高训练稳定性。2) 多教师蒸馏:利用多个具有不同推理路径的教师模型,纠正SFT的拟合偏差,提高模型的泛化能力。3) 动态探索-利用门控:根据奖励反馈,动态地调整SFT和RL的权重,平衡模型的稳定性和探索性。整体流程是,首先使用SFT进行初始化,然后通过GAL降低RL的方差,通过多教师蒸馏纠正SFT的偏差,最后通过动态门控机制自适应地调整SFT和RL的权重。
关键创新:DYPO的关键创新在于其结构性地解决了SFT和RL之间的偏差-方差冲突。与现有方法简单地加权SFT和RL的损失不同,DYPO通过GAL、多教师蒸馏和动态门控机制,分别从降低方差、纠正偏差和平衡探索-利用三个方面入手,从而更有效地提升模型性能。此外,DYPO的理论分析也证实了其能够线性地降低拟合偏差并最小化总体方差。
关键设计:GAL的设计利用了内在群体动态,通过对齐群体内的梯度方向来降低方差。多教师蒸馏的关键在于选择具有多样性推理路径的教师模型,以提供更丰富的监督信息。动态门控机制的设计需要仔细考虑奖励信号的利用方式,以确保模型能够在稳定性和探索性之间取得平衡。具体的损失函数、网络结构和参数设置需要在实验中进行调整和优化。
🖼️ 关键图片
📊 实验亮点
实验结果表明,DYPO在复杂推理基准测试中平均提高了4.8%,在分布外任务中提高了13.3%,显著优于传统的顺序pipeline方法。这些结果验证了DYPO框架的有效性,表明其能够有效地缓解SFT和RL之间的偏差-方差冲突,提升模型的整体性能。
🎯 应用场景
DYPO框架可应用于各种需要复杂推理能力的大型语言模型任务,例如问答系统、对话生成、文本摘要等。该方法能够提升模型在复杂场景下的鲁棒性和泛化能力,具有广泛的应用前景和实际价值。未来,DYPO可以进一步扩展到其他模态,例如图像、语音等,以构建更强大的多模态智能系统。
📄 摘要(原文)
Post-training paradigms for Large Language Models (LLMs), primarily Supervised Fine-Tuning (SFT) and Reinforcement Learning (RL), face a fundamental dilemma: SFT provides stability (low variance) but suffers from high fitting bias, while RL enables exploration (low bias) but grapples with high gradient variance. Existing unified optimization strategies often employ naive loss weighting, overlooking the statistical conflict between these distinct gradient signals. In this paper, we provide a rigorous theoretical analysis of this bias-variance trade-off and propose \textbf{DYPO} (Dynamic Policy Optimization), a unified framework designed to structurally mitigate this conflict. DYPO integrates three core components: (1) a \textit{Group Alignment Loss (GAL)} that leverages intrinsic group dynamics to significantly reduce RL gradient variance; (2) a \textit{Multi-Teacher Distillation} mechanism that corrects SFT fitting bias via diverse reasoning paths; and (3) a \textit{Dynamic Exploitation-Exploration Gating} mechanism that adaptively arbitrates between stable SFT and exploratory RL based on reward feedback. Theoretical analysis confirms that DYPO linearly reduces fitting bias and minimizes overall variance. Extensive experiments demonstrate that DYPO significantly outperforms traditional sequential pipelines, achieving an average improvement of 4.8\% on complex reasoning benchmarks and 13.3\% on out-of-distribution tasks. Our code is publicly available at https://github.com/Tocci-Zhu/DYPO.