Towards a Unified View of Large Language Model Post-Training
作者: Xingtai Lv, Yuxin Zuo, Youbang Sun, Hongyi Liu, Yuntian Wei, Zhekai Chen, Lixuan He, Xuekai Zhu, Kaiyan Zhang, Bingning Wang, Ning Ding, Bowen Zhou
分类: cs.LG, cs.AI, cs.CL
发布日期: 2025-09-04
💡 一句话要点
统一大语言模型后训练视角,提出混合后训练算法HPT,提升数学推理能力。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 后训练 强化学习 监督微调 策略梯度 数学推理 混合训练
📋 核心要点
- 现有后训练方法依赖于不同类型的数据(在线/离线),导致训练目标不一致,缺乏统一的理论框架。
- 论文提出统一策略梯度估计器,将不同后训练方法视为同一优化目标的特殊情况,并设计混合后训练算法HPT。
- 实验表明,HPT在数学推理和分布外测试中,显著优于现有方法,验证了统一框架的有效性。
📝 摘要(中文)
本文旨在统一大型语言模型后训练的视角,认为在线数据(模型生成)和离线数据(人工或其它模型演示)驱动的强化学习(RL)和监督微调(SFT)方法并非矛盾,而是同一优化过程的不同实例。论文推导了一个统一的策略梯度估计器,将多种后训练方法视为在不同数据分布假设和偏差-方差权衡下,对共同目标函数梯度计算的不同形式。该梯度估计器由四个可互换的部分组成:稳定掩码、参考策略分母、优势估计和似然梯度。受理论发现的启发,论文提出混合后训练(HPT)算法,动态选择不同的训练信号,旨在有效利用演示数据并实现稳定的探索,同时不牺牲已学习的推理模式。大量实验和消融研究验证了统一理论框架和HPT的有效性。在六个数学推理基准测试和两个分布外测试中,HPT始终优于各种规模和系列的强大基线模型。
🔬 方法详解
问题定义:现有的大语言模型后训练方法主要分为两类:基于在线数据的强化学习(RL)和基于离线数据的监督微调(SFT)。这两种方法使用的数据来源不同,训练目标也不同,导致模型训练不稳定,难以充分利用不同类型数据的优势。现有方法缺乏一个统一的理论框架来解释和整合这两种训练方式。
核心思路:论文的核心思路是将RL和SFT视为同一优化过程的不同实例,通过推导一个统一的策略梯度估计器,将不同的后训练方法纳入一个共同的理论框架。这个统一的视角允许我们更好地理解不同方法的优缺点,并设计出更有效的混合训练策略。
技术框架:论文提出了一个统一的策略梯度估计器,该估计器由四个可互换的部分组成:稳定掩码、参考策略分母、优势估计和似然梯度。通过选择不同的组件,可以得到不同的后训练方法。基于这个统一的框架,论文提出了混合后训练(HPT)算法,该算法动态地选择不同的训练信号,以平衡利用演示数据和探索新策略。HPT算法旨在实现有效的利用和稳定的探索,同时保留已学习的推理模式。
关键创新:论文最重要的技术创新在于提出了一个统一的策略梯度估计器,将RL和SFT方法统一到一个理论框架下。这个统一的框架允许我们更好地理解不同方法的优缺点,并设计出更有效的混合训练策略。HPT算法是基于这个统一框架的具体实现,它能够动态地选择不同的训练信号,以平衡利用演示数据和探索新策略。
关键设计:HPT算法的关键设计在于动态选择训练信号的机制。具体来说,HPT算法会根据当前模型的表现和数据的质量,动态地调整不同训练信号的权重。例如,当模型表现较差时,HPT算法会更多地依赖于演示数据,以快速提升模型的性能。当模型表现较好时,HPT算法会更多地依赖于在线数据,以探索新的策略。这种动态调整机制使得HPT算法能够更好地平衡利用和探索,从而获得更好的性能。
📊 实验亮点
实验结果表明,HPT算法在六个数学推理基准测试和两个分布外测试中,始终优于各种规模和系列的强大基线模型。这表明HPT算法能够有效地利用演示数据并实现稳定的探索,同时不牺牲已学习的推理模式。例如,在某个数学推理基准测试中,HPT算法相比于最强的基线模型,性能提升了超过5%。
🎯 应用场景
该研究成果可应用于各种需要对大型语言模型进行后训练的场景,例如提升模型的推理能力、生成能力和对话能力。特别是在需要结合人工反馈和模型自身探索的复杂任务中,该方法具有重要的应用价值。未来可以进一步探索该方法在其他类型任务和模型上的应用,并研究如何更好地利用不同类型的数据。
📄 摘要(原文)
Two major sources of training data exist for post-training modern language models: online (model-generated rollouts) data, and offline (human or other-model demonstrations) data. These two types of data are typically used by approaches like Reinforcement Learning (RL) and Supervised Fine-Tuning (SFT), respectively. In this paper, we show that these approaches are not in contradiction, but are instances of a single optimization process. We derive a Unified Policy Gradient Estimator, and present the calculations of a wide spectrum of post-training approaches as the gradient of a common objective under different data distribution assumptions and various bias-variance tradeoffs. The gradient estimator is constructed with four interchangeable parts: stabilization mask, reference policy denominator, advantage estimate, and likelihood gradient. Motivated by our theoretical findings, we propose Hybrid Post-Training (HPT), an algorithm that dynamically selects different training signals. HPT is designed to yield both effective exploitation of demonstration and stable exploration without sacrificing learned reasoning patterns. We provide extensive experiments and ablation studies to verify the effectiveness of our unified theoretical framework and HPT. Across six mathematical reasoning benchmarks and two out-of-distribution suites, HPT consistently surpasses strong baselines across models of varying scales and families.