Efficient Pre-Training of LLMs through Truncated SVD Layers

📄 arXiv: 2605.28573v1 📥 PDF

作者: Kaivan Kamali, Kajetan Schweighofer, Hormoz Shahrzad, Olivier Francon, Babak Hodjat, Risto Miikkulainen

分类: cs.LG, cs.AI

发布日期: 2026-05-27


💡 一句话要点

提出TSVD框架,通过截断SVD层高效预训练大规模语言模型

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大规模语言模型 预训练 低秩表示 奇异值分解 正交性约束

📋 核心要点

  1. 现有LLM预训练方法计算成本高昂,且难以在训练过程中维持低秩表示和权重正交性。
  2. TSVD框架通过谱能量启发式自适应秩选择和缓存机制,在训练中保持低秩和严格正交性。
  3. 实验表明,TSVD在降低计算需求的同时,性能匹配甚至超过全参数基线模型。

📝 摘要(中文)

大规模语言模型(LLM)的巨大规模使得预训练成本日益高昂。虽然低秩表示和正交权重矩阵原则上可以减少参数数量和计算开销,但大多数现有方法依赖于静态秩选择,并且由于计算成本高昂而无法强制执行权重正交性。本文介绍了一种名为TSVD的框架,该框架在整个训练过程中保持低秩和严格的正交性。它利用基于谱能量的启发式方法进行自适应秩选择,并采用缓存机制来维持正交性。理论分析证明了该方法在预训练动态中的优势,并且跨各种模型规模的实验表明该方法在经验上是有效的。TSVD在显著降低计算需求的同时,匹配或超过了全参数基线的性能。因此,该方法为高效高性能LLM预训练提供了一条有充分依据、实用且可扩展的途径。

🔬 方法详解

问题定义:大规模语言模型预训练的计算成本日益增长,现有方法在降低参数量和计算开销方面存在不足。具体来说,现有方法依赖于静态秩选择,无法根据训练动态调整模型秩,并且由于计算复杂度高,难以在训练过程中强制执行权重矩阵的正交性,从而限制了模型的效率和性能。

核心思路:TSVD的核心思路是在LLM预训练过程中,通过截断奇异值分解(Truncated SVD)保持权重矩阵的低秩性和正交性。通过动态调整秩的大小,并利用缓存机制降低计算复杂度,从而在保证模型性能的同时,显著降低计算成本。

技术框架:TSVD框架主要包含以下几个关键模块:1) 低秩初始化:使用截断SVD初始化权重矩阵,保证初始状态的低秩性。2) 自适应秩选择:基于谱能量的启发式方法,根据训练过程中权重矩阵的奇异值分布,动态调整秩的大小。3) 正交性维护:利用缓存机制,降低正交化过程的计算复杂度,保证权重矩阵在训练过程中始终保持正交性。4) 前向与反向传播:修改标准的前向和反向传播算法,以适应低秩和正交约束。

关键创新:TSVD的关键创新在于:1) 动态秩选择:不同于静态秩选择方法,TSVD能够根据训练动态自适应地调整模型秩,更好地平衡模型容量和计算成本。2) 高效正交性维护:通过缓存机制,显著降低了正交化过程的计算复杂度,使得在训练过程中强制执行权重正交性成为可能。

关键设计:TSVD的关键设计包括:1) 谱能量启发式:使用谱能量作为秩选择的依据,能够有效地捕捉权重矩阵中的重要信息。2) 缓存机制:通过缓存中间计算结果,避免重复计算,降低正交化过程的计算复杂度。3) 截断SVD层:将标准的线性层替换为截断SVD层,从而在网络结构上强制执行低秩约束。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,TSVD在各种模型规模下均能有效降低计算需求,同时保持或超过全参数基线的性能。例如,在某个实验中,TSVD在降低X%计算量的同时,性能与全参数模型持平,甚至略有提升。这些结果验证了TSVD在高效预训练LLM方面的有效性。

🎯 应用场景

TSVD框架可应用于各种大规模语言模型的预训练,尤其适用于计算资源受限的场景。该方法能够降低预训练成本,加速模型迭代,并促进LLM在边缘设备上的部署。此外,TSVD还可以应用于其他需要低秩表示和正交权重矩阵的机器学习任务,例如图像识别、语音识别等。

📄 摘要(原文)

The massive scaling of Large Language Models (LLMs) has made pretraining increasingly cost-prohibitive. While low-rank representation and orthonormal weight matrices could in principle reduce parameter counts and computational overhead, most existing methods rely on static rank selection and do not enforce weight orthonormality due to high computational cost. This paper introduces TSVD, a framework that maintains low rank and strict orthonormality throughout the training process. It utilizes a spectral energy-based heuristic for adaptive rank selection, and a caching mechanisms to maintain orthonormality. Theoretical analysis justifies the advantage of the approach in pretraining dynamics and experiments across various model scales demonstrate that it is effective empirically. TSVD matches or exceeds the performance of full-parameter baselines while significantly reducing compute requirements. The approach thus offers a well-founded, practical, and scalable path toward efficient high-performance LLM pretraining.