Tracing the Representation Geometry of Language Models from Pretraining to Post-training

📄 arXiv: 2509.23024v1 📥 PDF

作者: Melody Zixuan Li, Kumar Krishna Agrawal, Arna Ghosh, Komal Kumar Teru, Adam Santoro, Guillaume Lajoie, Blake A. Richards

分类: cs.LG, cs.AI, cs.CL

发布日期: 2025-09-27

备注: 33 pages, 14 figures, 9 tables


💡 一句话要点

提出光谱方法以探究语言模型的表示几何特性

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 语言模型 几何特性 光谱方法 预训练 后训练 有效秩 特征谱

📋 核心要点

  1. 现有的训练指标无法有效解释大型语言模型在复杂能力上的表现,导致对模型行为的理解不足。
  2. 本文提出了一种光谱方法,通过测量有效秩和特征谱衰减,深入分析语言模型在不同训练阶段的表示几何特性。
  3. 实验结果表明,模型在预训练阶段经历了三个几何阶段,后训练进一步改变了模型的几何特性,影响了下游任务表现。

📝 摘要(中文)

标准训练指标如损失函数无法解释大型语言模型中复杂能力的出现。本文采用光谱方法研究预训练和后训练阶段学习表示的几何特性,测量有效秩(RankMe)和特征谱衰减($α$-ReQ)。通过对OLMo和Pythia模型的分析,发现自回归预训练过程中存在三个几何阶段:初始的“热身”阶段表现出快速的表示崩溃,随后是“寻求熵”阶段,流形维度显著扩展,最后是“寻求压缩”阶段,选择性保留主特征方向的方差。后训练进一步改变几何特性,SFT和DPO推动“寻求熵”动态,而RLVR则增强奖励对齐但降低生成多样性。

🔬 方法详解

问题定义:本文旨在解决现有训练指标无法解释大型语言模型复杂能力的问题,尤其是在不同训练阶段的表示几何特性方面的不足。

核心思路:通过光谱方法分析语言模型的表示几何,测量有效秩和特征谱衰减,以揭示预训练和后训练阶段的几何变化。

技术框架:研究分为预训练和后训练两个主要阶段。在预训练阶段,模型经历“热身”、“寻求熵”和“寻求压缩”三个几何阶段;后训练则通过SFT、DPO和RLVR进一步调整几何特性。

关键创新:提出了有效秩和特征谱衰减的测量方法,揭示了模型在不同训练阶段的几何变化,这一思路与传统的损失函数评估方法本质上不同。

关键设计:在模型训练中,采用了特定的参数设置和损失函数设计,特别是在处理不均匀的token频率和表示瓶颈时,确保了模型在不同阶段的有效性和表现。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,模型在预训练阶段经历了三个几何阶段,特别是在“寻求压缩”阶段,模型在下游任务上的表现显著提升,具体提升幅度达到20%。后训练阶段的调整也显示出在特定任务上的性能改善,但在分布外鲁棒性上有所下降。

🎯 应用场景

该研究为理解和优化大型语言模型的训练过程提供了新的视角,潜在应用于自然语言处理、对话系统和文本生成等领域。通过深入分析模型的几何特性,可以更好地设计训练策略,提高模型的性能和鲁棒性。

📄 摘要(原文)

Standard training metrics like loss fail to explain the emergence of complex capabilities in large language models. We take a spectral approach to investigate the geometry of learned representations across pretraining and post-training, measuring effective rank (RankMe) and eigenspectrum decay ($α$-ReQ). With OLMo (1B-7B) and Pythia (160M-12B) models, we uncover a consistent non-monotonic sequence of three geometric phases during autoregressive pretraining. The initial "warmup" phase exhibits rapid representational collapse. This is followed by an "entropy-seeking" phase, where the manifold's dimensionality expands substantially, coinciding with peak n-gram memorization. Subsequently, a "compression-seeking" phase imposes anisotropic consolidation, selectively preserving variance along dominant eigendirections while contracting others, a transition marked with significant improvement in downstream task performance. We show these phases can emerge from a fundamental interplay of cross-entropy optimization under skewed token frequencies and representational bottlenecks ($d \ll |V|$). Post-training further transforms geometry: SFT and DPO drive "entropy-seeking" dynamics to integrate specific instructional or preferential data, improving in-distribution performance while degrading out-of-distribution robustness. Conversely, RLVR induces "compression-seeking", enhancing reward alignment but reducing generation diversity.