Large Language Model Post-Training: A Unified View of Off-Policy and On-Policy Learning

📄 arXiv: 2604.07941v1 📥 PDF

作者: Shiwan Zhao, Zhihu Wang, Xuyang Zhao, Jiaming Zhou, Caiyue Xu, Chenfei Liu, Liting Zhang, Yuhang Jia, Yanzhe Zhang, Hualong Yu, Zichen Xu, Qicheng Li, Yong Qin

分类: cs.CL, cs.AI, cs.LG

发布日期: 2026-04-09

备注: 38 pages, 1 figure, 8 tables


💡 一句话要点

统一视角解读大语言模型后训练:离线与在线学习的融合

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 后训练 离线学习 在线学习 强化学习 监督微调 行为对齐

📋 核心要点

  1. 现有大语言模型后训练方法分散,缺乏统一视角,难以诊断和解决行为瓶颈。
  2. 论文提出将后训练视为对模型行为的结构化干预,从轨迹来源和行为角色两个维度进行统一分析。
  3. 该框架有助于理解不同后训练方法的本质,并指导多阶段流程的协调设计,提升系统性能。

📝 摘要(中文)

后训练已成为将预训练的大语言模型(LLMs)转化为对齐且可部署系统的关键。近期的进展涵盖了监督微调(SFT)、偏好优化、强化学习(RL)、过程监督、验证器引导方法、蒸馏和多阶段流程。然而,这些方法通常以零散的方式讨论,按标签或目标族组织,而不是按它们解决的行为瓶颈组织。本文认为,理解LLM后训练的最佳方式是将其视为对模型行为的结构化干预。我们首先按轨迹来源组织该领域,定义了两个主要的学习机制:基于外部提供的轨迹的离线学习,以及基于学习者生成的rollout的在线学习。然后,我们通过两个重复出现的角色来解释这些方法——有效的支持扩展(使有用的行为更容易实现)和策略重塑(改进已可到达区域内的行为)——以及一个互补的系统级角色,行为巩固(在阶段和模型转换中保留、转移和分摊行为)。这种视角产生了对主要范式的统一解读。SFT可以用于支持扩展或策略重塑,而基于偏好的方法通常是离线重塑。在线RL通常改进学习者生成的状态的行为,但在更强的指导下,它也可以使难以达到的推理路径可达。蒸馏通常最好理解为巩固,而不仅仅是压缩,混合流程作为协调的多阶段组合出现。总的来说,该框架有助于诊断后训练瓶颈并推理阶段组合,表明LLM后训练的进展越来越依赖于协调的系统设计,而不是任何单一的主导目标。

🔬 方法详解

问题定义:现有的大语言模型后训练方法,如SFT、RLHF等,通常被孤立地研究,缺乏一个统一的框架来理解它们之间的关系以及各自的优缺点。这导致难以有效地诊断后训练过程中的瓶颈,也难以设计出最优的多阶段训练流程。现有方法主要关注目标函数或训练标签,忽略了它们对模型行为的根本影响。

核心思路:论文的核心思路是将大语言模型后训练视为对模型行为的结构化干预。通过分析训练数据的来源(离线或在线)以及训练方法在行为空间中所扮演的角色(支持扩展、策略重塑、行为巩固),可以将各种后训练方法纳入一个统一的框架中进行理解和比较。这种视角有助于识别后训练的瓶颈,并指导多阶段训练流程的设计。

技术框架:该框架主要包含以下几个关键要素:1) 轨迹来源:区分离线学习(基于外部提供的轨迹)和在线学习(基于模型自身生成的轨迹)。2) 行为角色:将后训练方法分为三个角色:支持扩展(使模型能够产生新的行为),策略重塑(改进模型在已有行为空间内的表现),以及行为巩固(在不同阶段和模型之间传递和保留行为)。3) 统一视角:将各种后训练方法,如SFT、RLHF、蒸馏等,映射到上述框架中,分析它们在轨迹来源和行为角色上的特点。

关键创新:该论文最重要的创新在于提出了一个统一的框架来理解大语言模型后训练。通过引入轨迹来源和行为角色这两个维度,可以将各种看似不同的后训练方法纳入一个统一的视角下进行分析和比较。这有助于研究人员更好地理解各种方法的本质,并设计出更有效的后训练流程。

关键设计:论文并没有提出新的算法或模型结构,而是侧重于对现有方法的分析和理解。关键的设计在于如何将各种后训练方法映射到轨迹来源和行为角色的框架中。例如,SFT可以被视为支持扩展或策略重塑,而RLHF通常被视为离线策略重塑。蒸馏则更多地被视为行为巩固,而不仅仅是模型压缩。

🖼️ 关键图片

fig_0

📊 实验亮点

论文通过统一的框架分析了SFT、RLHF、蒸馏等主流后训练方法,揭示了它们在轨迹来源和行为角色上的差异。例如,论文指出SFT既可以用于支持扩展,也可以用于策略重塑,而RLHF主要用于离线策略重塑。这种分析有助于理解各种方法的优缺点,并指导多阶段训练流程的设计。

🎯 应用场景

该研究成果可应用于大语言模型的对齐、指令遵循、安全性提升等领域。通过统一的视角理解后训练方法,可以更有效地诊断和解决模型行为问题,设计更优的多阶段训练流程,从而提升大语言模型在实际应用中的性能和可靠性。该框架也有助于指导未来后训练方法的研究方向。

📄 摘要(原文)

Post-training has become central to turning pretrained large language models (LLMs) into aligned and deployable systems. Recent progress spans supervised fine-tuning (SFT), preference optimization, reinforcement learning (RL), process supervision, verifier-guided methods, distillation, and multi-stage pipelines. Yet these methods are often discussed in fragmented ways, organized by labels or objective families rather than by the behavioral bottlenecks they address. This survey argues that LLM post-training is best understood as structured intervention on model behavior. We organize the field first by trajectory provenance, which defines two primary learning regimes: off-policy learning on externally supplied trajectories, and on-policy learning on learner-generated rollouts. We then interpret methods through two recurring roles -- effective support expansion, which makes useful behaviors more reachable, and policy reshaping, which improves behavior within already reachable regions -- together with a complementary systems-level role, behavioral consolidation, which preserves, transfers, and amortizes behavior across stages and model transitions. This perspective yields a unified reading of major paradigms. SFT may serve either support expansion or policy reshaping, whereas preference-based methods are usually off-policy reshaping. On-policy RL often improves behavior on learner-generated states, though under stronger guidance it can also make hard-to-reach reasoning paths reachable. Distillation is often best understood as consolidation rather than only compression, and hybrid pipelines emerge as coordinated multi-stage compositions. Overall, the framework helps diagnose post-training bottlenecks and reason about stage composition, suggesting that progress in LLM post-training increasingly depends on coordinated system design rather than any single dominant objective.