Representation Collapse in Sequential Post-Training of Large Language Models

📄 arXiv: 2605.30524v1 📥 PDF

作者: Yichen Liu, Mingyu Chen, Hao Wang, Xiaoran Xu, Chenxi Lin, Rui Zhang, Yutong Zhou, Yuxin Yang, Jiarui Wu, Wei Sun

分类: cs.LG

发布日期: 2026-05-28

备注: work in progress


💡 一句话要点

研究序列后训练中大语言模型的表征坍塌现象,并提出干预方法。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 序列后训练 表征坍塌 持续学习 领域泛化 模型可塑性 轻量级干预

📋 核心要点

  1. 现有大语言模型通常通过链式后训练阶段进行适配,而非单次指令微调,这可能导致表征坍塌。
  2. 论文提出测量套件,分析隐藏状态、logits等,研究序列后训练中表征的秩、各向异性和同质性变化。
  3. 实验表明,表征坍塌与可塑性降低、泛化能力减弱和校准效果变差相关,并提出了轻量级干预措施。

📝 摘要(中文)

本文研究了大语言模型在序列后训练阶段中,内部表征是否会逐渐压缩成低秩、各向异性和同质的特征空间。作者定义了一套针对隐藏状态、logits、token轨迹和LoRA更新的测量方法,并用它来分析监督微调、偏好优化、安全/拒绝调整、数学和代码专业化以及长链思维调整等场景,在受控的阶段排序下进行分析。核心假设是,过度的表征集中不仅仅是一种几何上的奇特现象,它还预示着后期适应过程中的可塑性降低、领域外泛化能力减弱以及校准效果变差。作者进一步评估了轻量级干预措施,包括混合领域重放、特征刷新、表征多样性正则化和LoRA更新解相关,作为在不放弃后训练行为收益的情况下,保持未来可学习性的方法。

🔬 方法详解

问题定义:论文旨在研究大语言模型在经过一系列的后训练阶段后,其内部表征是否会发生“坍塌”现象,具体表现为表征的秩降低、各向异性增强以及同质化。现有方法缺乏对这种现象的系统性分析,并且没有有效的手段来缓解这种表征坍塌带来的负面影响,例如模型可塑性降低、泛化能力减弱等。

核心思路:论文的核心思路是通过设计一套测量方法来量化表征的秩、各向异性和同质性,并分析这些指标在不同后训练阶段的变化趋势。同时,论文假设表征坍塌是导致模型性能下降的原因之一,并提出一系列轻量级的干预措施来缓解表征坍塌,从而提升模型的性能。

技术框架:论文的技术框架主要包括以下几个部分:1) 定义测量套件,用于量化隐藏状态、logits、token轨迹和LoRA更新的表征特性;2) 在不同的后训练场景下(如监督微调、偏好优化等)进行实验,分析表征的变化趋势;3) 提出轻量级干预措施,包括混合领域重放、特征刷新、表征多样性正则化和LoRA更新解相关;4) 评估干预措施的效果,验证其是否能够缓解表征坍塌并提升模型性能。

关键创新:论文的关键创新在于:1) 系统性地研究了大语言模型序列后训练中的表征坍塌现象,并提出了量化表征特性的测量方法;2) 提出了表征坍塌与模型性能下降之间的关联性假设,并进行了实验验证;3) 提出了一系列轻量级的干预措施,能够在不显著增加计算成本的情况下,缓解表征坍塌并提升模型性能。

关键设计:论文的关键设计包括:1) 测量套件的设计,需要选择合适的指标来量化表征的秩、各向异性和同质性;2) 干预措施的设计,需要在保证模型行为收益的同时,尽可能地保持表征的多样性和可塑性;3) 实验设计,需要选择具有代表性的后训练场景,并控制变量,以验证表征坍塌与模型性能之间的关联性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文通过实验验证了表征坍塌与模型性能下降之间的关联性,并证明了所提出的轻量级干预措施能够有效缓解表征坍塌,提升模型在领域外泛化和校准方面的性能。具体的性能提升数据和对比基线需要在论文中查找。

🎯 应用场景

该研究成果可应用于提升大语言模型在持续学习和领域迁移场景下的性能。通过缓解表征坍塌,可以提高模型的可塑性,使其能够更好地适应新的任务和领域,从而降低模型维护和更新的成本。此外,该研究也有助于开发更加鲁棒和可靠的大语言模型,减少模型在实际应用中出现意外行为的风险。

📄 摘要(原文)

Large language models are now adapted through chains of post-training stages rather than through a single instruction-tuning pass. This paper studies whether such sequential post-training gradually compresses internal representations into low-rank, anisotropic, and homogeneous feature spaces. We define a measurement suite for hidden states, logits, token trajectories, and LoRA updates, and we use it to analyze supervised fine-tuning, preference optimization, safety/refusal tuning, math and code specialization, and long chain-of-thought tuning under controlled stage orderings. The central hypothesis is that excessive representation concentration is not merely a geometric curiosity: it predicts reduced plasticity during later adaptation, weaker out-of-domain generalization, and poorer calibration. We further evaluate lightweight interventions, including mixed-domain replay, feature refresh, representation diversity regularization, and LoRA update decorrelation, as ways to preserve future learnability without giving up the behavioral gains of post-training.