Beyond Perplexity: A Geometric and Spectral Study of Low-Rank Pre-Training
作者: Namrata Shivagunde, Vijeta Deshpande, Sherin Muckatira, Anna Rumshisky
分类: cs.LG, cs.AI, cs.CL
发布日期: 2026-05-13
备注: 9 pages, 5 figures, 2 tables
💡 一句话要点
通过几何与谱分析,揭示低秩预训练语言模型与全秩模型的差异。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 低秩预训练 语言模型 几何分析 谱分析 损失景观 模型压缩
📋 核心要点
- 现有低秩预训练方法主要依赖困惑度评估,无法充分反映模型解的质量,导致对不同低秩方法优劣的判断存在偏差。
- 本研究通过几何和谱分析,深入比较了五种主流低秩预训练方法与全秩训练的差异,揭示了它们在损失景观、权重结构和激活模式上的不同行为。
- 实验表明,即使困惑度相近,不同低秩方法收敛到不同的解空间,且与全秩训练存在显著差异,验证困惑度不能完全预测下游任务性能。
📝 摘要(中文)
大规模语言模型的预训练主要受限于存储全秩权重、梯度和优化器状态的内存成本。低秩预训练应运而生,并迅速发展。一个核心问题仍然存在:低秩方法产生的模型是否能达到与全秩训练相当的泛化能力,或者秩约束是否从根本上改变了所达到的解?现有的比较几乎完全依赖于单次运行的验证困惑度,通常沿用之前的文献。然而,困惑度并不能很好地代表解的质量;两种方法可能在困惑度上匹配,但收敛到不同的损失景观区域和内部表示。我们通过表征五种低秩预训练方法(GaLore和Fira,内存高效优化器;CoLA和SLTrain,架构重参数化;ReLoRA,具有周期性重置的adapter风格更新)在三种模型规模(60M、130M、350M)下相对于全秩训练找到的解来弥补这一差距。我们沿着四个维度评估每种方法:沿随机/top-K PCA方向的1-D损失景观,检查点之间的1-D插值,权重和学习更新的谱结构,以及与全秩训练的激活相似性。我们表明,即使验证困惑度接近,低秩方法也与全秩训练不同,彼此之间也不同。全秩训练沿随机方向比低秩方法稳定在更尖锐的盆地中,而top-1 PCA方向则相反。每种方法都收敛到几何上不同的盆地。随着训练的进行,低秩激活在后面的层中与全秩激活不同,GaLore最接近全秩。此外,验证困惑度并不能在每个尺度上转化为下游性能。添加几何和谱度量可以提高预测。
🔬 方法详解
问题定义:论文旨在解决低秩预训练方法与全秩预训练方法之间的差异性问题。现有方法主要依赖困惑度作为评估指标,但困惑度无法充分反映模型解的质量,导致对低秩预训练方法的理解不够深入。此外,不同低秩方法之间的差异也缺乏系统性的研究。
核心思路:论文的核心思路是通过几何和谱分析,从损失景观、权重结构和激活模式等多个维度,深入比较不同低秩预训练方法与全秩训练的差异。这种多维度的分析方法能够更全面地揭示低秩预训练方法的特性,并为选择合适的低秩方法提供指导。
技术框架:论文采用了一种多维度的评估框架,包括以下几个主要模块: 1. 损失景观分析:通过计算沿随机方向和top-K PCA方向的1-D损失景观,分析不同方法收敛到的解空间的形状。 2. 权重谱分析:分析权重矩阵和学习更新的谱结构,揭示不同方法学习到的权重分布的差异。 3. 激活相似性分析:计算低秩方法和全秩训练的激活相似性,评估低秩方法对全秩训练的模拟程度。 4. 下游任务评估:在多个下游任务上评估不同方法的性能,验证几何和谱分析结果与下游任务性能的相关性。
关键创新:论文最重要的技术创新点在于提出了一个基于几何和谱分析的多维度评估框架,用于深入比较不同低秩预训练方法与全秩训练的差异。该框架能够更全面地揭示低秩预训练方法的特性,并为选择合适的低秩方法提供指导。与现有方法相比,该框架不仅关注困惑度,还关注损失景观、权重结构和激活模式等多个维度,从而能够更准确地评估低秩预训练方法的性能。
关键设计:论文的关键设计包括: 1. 选择具有代表性的低秩预训练方法:选择了GaLore、Fira、CoLA、SLTrain和ReLoRA等五种主流的低秩预训练方法。 2. 采用多种模型规模:在60M、130M和350M三种模型规模上进行实验,以验证结果的泛化性。 3. 设计多种几何和谱度量:设计了多种几何和谱度量,用于分析损失景观、权重结构和激活模式的差异。 4. 在多个下游任务上进行评估:在多个下游任务上评估不同方法的性能,以验证几何和谱分析结果与下游任务性能的相关性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,即使验证困惑度接近,不同的低秩预训练方法与全秩训练收敛到几何上不同的解空间。全秩训练在随机方向上收敛到更尖锐的盆地,而低秩方法在top-1 PCA方向上表现更好。GaLore在激活相似性方面最接近全秩训练。此外,验证困惑度并不能完全预测下游任务性能,添加几何和谱度量可以提高预测准确性。
🎯 应用场景
该研究成果可应用于大规模语言模型的低成本预训练,降低计算资源需求,加速模型迭代。通过选择合适的低秩预训练方法,可以在保证模型性能的同时,显著降低训练成本,促进自然语言处理技术在资源受限环境下的应用。
📄 摘要(原文)
Pre-training large language models is dominated by the memory cost of storing full-rank weights, gradients, and optimizer states. Low-rank pre-training has emerged to address this, and the space of methods has grown rapidly. A central question remains open: do low-rank methods produce models that generalize comparably to full-rank training, or does the rank constraint fundamentally alter the solutions reached? Existing comparisons rely almost entirely on validation perplexity from single-seed runs, often carried forward from prior literature. Yet perplexity is a poor proxy for solution quality; two methods can match on perplexity while converging to different loss landscape regions and internal representations. We close this gap by characterizing the solutions found by five low-rank pre-training methods, GaLore and Fira (memory-efficient optimizers), CoLA and SLTrain (architecture reparameterizations), and ReLoRA (adapter-style updates with periodic resets), against full-rank training at three model scales (60M, 130M, 350M). We evaluate each along 16 metrics across four dimensions: 1-D loss landscape along random/top-K PCA directions, 1-D interpolation between checkpoints, spectral structure of the weights and learned updates, and activation similarity to full-rank training. We show that low-rank methods are not equivalent to full-rank training, nor to one another, even when validation perplexity is close. Full-rank training settles into a sharper basin than low-rank methods along random directions, while the reverse holds for the top-1 PCA direction. Each method converges to a geometrically distinct basin. Low-rank activations diverge from full-rank in later layers as training progresses, with GaLore tracking full-rank most closely. Further, validation perplexity does not translate to downstream performance at every scale. Adding geometric and spectral metrics improves the prediction.