Pion: A Spectrum-Preserving Optimizer via Orthogonal Equivalence Transformation

📄 arXiv: 2605.12492v1 📥 PDF

作者: Kexuan Shi, Hanxuan Li, Zeju Qiu, Yandong Wen, Simon Buchholz, Weiyang Liu

分类: cs.LG, stat.ML

发布日期: 2026-05-12

备注: Technical report v1 (30 pages, 19 figures, project page: https://spherelab.ai/pion/)


💡 一句话要点

Pion:一种基于正交等价变换的保谱优化器,用于大语言模型训练。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 优化器 正交变换 谱范数 深度学习

📋 核心要点

  1. 现有优化器(如Adam)在训练LLM时,可能导致权重矩阵谱范数不稳定,影响训练效果。
  2. Pion通过正交等价变换更新权重矩阵,保持其奇异值不变,从而稳定谱范数。
  3. 实验表明,Pion在LLM预训练和微调中,性能与标准优化器相当,且更稳定。

📝 摘要(中文)

本文提出Pion,一种基于正交等价变换的保谱优化器,用于大规模语言模型(LLM)训练。与Adam和Muon等加性优化器不同,Pion通过左、右正交变换更新每个权重矩阵,从而在整个训练过程中保持其奇异值不变。这产生了一种优化机制,该机制在保持权重矩阵的谱范数固定的同时,调整其几何形状。我们推导了Pion更新规则,系统地检查了其设计选择,并分析了其收敛行为以及几个关键属性。实验结果表明,对于LLM预训练和微调,Pion提供了一种稳定且有竞争力的替代标准优化器。

🔬 方法详解

问题定义:现有的大型语言模型训练中,常用的优化器如Adam等,在更新权重矩阵时,会改变其奇异值,从而影响权重矩阵的谱范数。谱范数的不稳定可能导致训练过程中的梯度爆炸或梯度消失问题,最终影响模型的收敛性和泛化能力。因此,如何设计一种能够保持权重矩阵谱范数的优化器,是一个重要的研究问题。

核心思路:Pion的核心思路是通过正交等价变换来更新权重矩阵。具体来说,对于每个权重矩阵,Pion使用两个正交矩阵分别从左侧和右侧对其进行变换。由于正交变换不改变矩阵的奇异值,因此权重矩阵的谱范数在更新过程中保持不变。这种设计保证了权重矩阵的几何形状可以被调整,同时其谱范数保持固定,从而提高了训练的稳定性。

技术框架:Pion的整体框架可以概括为以下几个步骤:1. 对于每个权重矩阵,计算其更新方向。2. 将更新方向分解为两个正交矩阵,分别用于左侧和右侧的正交变换。3. 使用这两个正交矩阵更新权重矩阵。4. 重复以上步骤,直到训练结束。该框架的关键在于如何计算这两个正交矩阵,以及如何保证更新方向能够有效地调整权重矩阵的几何形状。

关键创新:Pion最重要的技术创新点在于其使用正交等价变换来更新权重矩阵,从而实现了谱范数的保持。与传统的加性优化器不同,Pion不是直接在权重矩阵上加上一个更新量,而是通过正交变换来改变权重矩阵的形状。这种方法避免了对奇异值的直接修改,从而保证了谱范数的稳定性。

关键设计:Pion的关键设计包括:1. 正交矩阵的计算方法:论文中详细介绍了如何根据更新方向计算出两个正交矩阵。2. 更新步长的选择:合适的更新步长对于保证训练的收敛性至关重要。3. 正交变换的应用方式:如何将正交变换应用到权重矩阵上,以实现有效的几何形状调整。这些设计细节共同保证了Pion的有效性和稳定性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Pion在LLM预训练和微调任务中,能够达到与Adam等标准优化器相当甚至更好的性能。尤其是在某些特定任务上,Pion表现出更强的稳定性和更快的收敛速度。这些结果验证了Pion作为一种新型优化器的有效性,并表明其具有替代传统优化器的潜力。

🎯 应用场景

Pion优化器可广泛应用于各种大规模语言模型的预训练和微调任务中。其保持谱范数稳定的特性,有助于提高训练的稳定性和效率,尤其是在处理复杂数据集和深层模型时。此外,Pion还可以应用于其他类型的神经网络,例如卷积神经网络和循环神经网络,以提高其训练的稳定性和泛化能力。该研究对于推动深度学习优化算法的发展具有重要意义。

📄 摘要(原文)

We introduce Pion, a spectrum-preserving optimizer for large language model (LLM) training based on orthogonal equivalence transformation. Unlike additive optimizers such as Adam and Muon, Pion updates each weight matrix through left and right orthogonal transformations, preserving its singular values throughout training. This yields an optimization mechanism that modulates the geometry of weight matrices while keeping their spectral norm fixed. We derive the Pion update rule, systematically examine its design choices, and analyze its convergence behavior along with several key properties. Empirical results show that Pion offers a stable and competitive alternative to standard optimizers for both LLM pretraining and finetuning.