Learning in the Null Space: Small Singular Values for Continual Learning

📄 arXiv: 2602.21919v1 📥 PDF

作者: Cuong Anh Pham, Praneeth Vepakomma, Samuel Horváth

分类: cs.LG, cs.CV

发布日期: 2026-02-25

备注: 17 pages, accepted as Oral presentation at the Third Conference on Parsimony and Learning (CPAL 2026)

🔗 代码/项目: GITHUB


💡 一句话要点

NESS:利用小奇异值空间进行持续学习,缓解灾难性遗忘。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 持续学习 灾难性遗忘 奇异值分解 零空间 低秩适配

📋 核心要点

  1. 持续学习的关键挑战在于缓解灾难性遗忘,现有方法通常通过梯度投影强制正交性,效率和理论性质有待提升。
  2. NESS的核心思想是利用小奇异值对应的方向与先前任务输入空间近似正交的特性,直接在权重空间中构建近似零空间。
  3. 实验结果表明,NESS在三个基准数据集上表现出竞争性的性能、低遗忘和跨任务的稳定准确性,验证了小奇异值在持续学习中的作用。

📝 摘要(中文)

本文提出了一种名为NESS(Null-space Estimated from Small Singular values)的持续学习方法,旨在缓解灾难性遗忘并支持进一步学习。该方法利用小奇异值对应于与先前任务输入空间近似正交的方向这一特性,直接在权重空间中应用正交性,而非通过梯度操作。NESS通过每一层输入表示的最小奇异值构建近似零空间,并使用受限于该子空间的紧凑低秩适配(LoRA-style)公式参数化特定于任务的更新。子空间基固定以保持零空间约束,并且每个任务仅学习单个可训练矩阵。这种设计确保了更新近似保持在先前输入的零空间中,同时能够适应新任务。理论分析和在三个基准数据集上的实验表明,NESS具有竞争性的性能、低遗忘和跨任务的稳定准确性。

🔬 方法详解

问题定义:持续学习旨在使模型在学习新任务的同时,尽可能保留先前任务的知识,避免灾难性遗忘。现有基于正交性的方法通常通过梯度操作来强制更新方向与先前任务的梯度正交,计算成本较高,且难以保证权重空间的真正正交性。

核心思路:NESS的核心思路是利用线性代数中的一个性质:矩阵的小奇异值对应的奇异向量,张成了一个与该矩阵行空间(可以理解为先前任务的输入空间)近似正交的子空间(零空间)。因此,通过限制模型更新在这个零空间中,可以避免对先前任务知识的干扰。

技术框架:NESS的整体框架如下:1. 对于每个任务,计算每一层输入表示的奇异值分解。2. 选择最小的若干个奇异值对应的奇异向量,构建该层的近似零空间。3. 使用低秩适配(LoRA-style)的方式,将任务特定的更新限制在这个零空间中。4. 训练LoRA参数,同时保持零空间基固定。

关键创新:NESS的关键创新在于:1. 直接在权重空间中应用正交性约束,而非通过梯度操作。2. 利用小奇异值来估计零空间,提供了一种高效且理论上有保证的正交性约束方法。3. 使用LoRA进行参数化,降低了计算成本和存储需求。

关键设计:NESS的关键设计包括:1. 奇异值的选择:需要确定选择多少个最小奇异值来构建零空间,这需要在正交性和模型容量之间进行权衡。2. LoRA的秩:LoRA的秩决定了任务特定更新的表达能力,需要根据任务的复杂程度进行调整。3. 损失函数:可以使用标准的分类或回归损失函数,也可以添加额外的正则化项来鼓励参数的稀疏性或正交性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,NESS在三个基准数据集(包括CIFAR-100、miniImagenet和DomainNet)上取得了具有竞争力的性能。与现有的持续学习方法相比,NESS在遗忘率和准确率之间取得了更好的平衡。例如,在CIFAR-100数据集上,NESS的平均准确率与最佳基线相当,但遗忘率显著降低。

🎯 应用场景

NESS具有广泛的应用前景,例如在机器人持续学习、自动驾驶、医疗诊断等领域。它可以使模型在不断学习新技能或适应新环境的同时,保持对先前知识的掌握,从而提高模型的泛化能力和鲁棒性。此外,NESS还可以应用于模型压缩和知识蒸馏等任务。

📄 摘要(原文)

Alleviating catastrophic forgetting while enabling further learning is a primary challenge in continual learning (CL). Orthogonal-based training methods have gained attention for their efficiency and strong theoretical properties, and many existing approaches enforce orthogonality through gradient projection. In this paper, we revisit orthogonality and exploit the fact that small singular values correspond to directions that are nearly orthogonal to the input space of previous tasks. Building on this principle, we introduce NESS (Null-space Estimated from Small Singular values), a CL method that applies orthogonality directly in the weight space rather than through gradient manipulation. Specifically, NESS constructs an approximate null space using the smallest singular values of each layer's input representation and parameterizes task-specific updates via a compact low-rank adaptation (LoRA-style) formulation constrained to this subspace. The subspace basis is fixed to preserve the null-space constraint, and only a single trainable matrix is learned for each task. This design ensures that the resulting updates remain approximately in the null space of previous inputs while enabling adaptation to new tasks. Our theoretical analysis and experiments on three benchmark datasets demonstrate competitive performance, low forgetting, and stable accuracy across tasks, highlighting the role of small singular values in continual learning. The code is available at https://github.com/pacman-ctm/NESS.