GNSP: Gradient Null Space Projection for Preserving Cross-Modal Alignment in VLMs Continual Learning

📄 arXiv: 2507.19839v1 📥 PDF

作者: Tiantian Peng, Yuyang Liu, Shuo Yang, Qiuhe Hong, YongHong Tian

分类: cs.LG, cs.CV

发布日期: 2025-07-26


💡 一句话要点

提出GNSP方法,通过梯度零空间投影和模态对齐保持,解决VLM持续学习中的灾难性遗忘问题。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 持续学习 视觉语言模型 梯度零空间投影 灾难性遗忘 模态对齐 知识蒸馏 CLIP

📋 核心要点

  1. CLIP在持续学习中面临灾难性遗忘和模态对齐退化,损害了其零样本能力,这是当前方法的主要挑战。
  2. GNSP方法通过将任务特定梯度投影到先前知识的零空间,防止对先前任务的干扰,同时结合知识蒸馏保持泛化能力。
  3. 在MTIL基准测试中,GNSP在平均和最后两个关键指标上均达到SOTA性能,并成功保持了CLIP的原始模态差距。

📝 摘要(中文)

对比语言-图像预训练(CLIP)通过在共享嵌入空间中对齐视觉和文本模态,展现了卓越的零样本泛化能力。然而,在多样化任务上持续微调时,CLIP会遭受灾难性遗忘和嵌入对齐退化,从而削弱其零样本能力。本文提出梯度零空间投影(GNSP),这是一种高效的持续学习方法,将特定任务的梯度投影到先前学习知识的零空间上。这种正交投影在数学上防止了对先前任务的干扰,而无需依赖排练或架构修改。此外,为了保持CLIP固有的泛化属性,我们引入了知识蒸馏,并将其与受CLIP预训练启发的模态对齐保持损失相结合,以稳定微调期间的多模态嵌入空间的结构。在包含11个任务的MTIL基准测试中,我们的方法在平均和最后两个关键指标上都取得了SOTA性能。更重要的是,实验表明,我们的方法成功地保持了CLIP的原始模态差距和跨模态检索性能,证实了其在整个持续学习过程中保持鲁棒的视觉-语言空间的有效性。

🔬 方法详解

问题定义:论文旨在解决视觉语言模型(VLM)在持续学习过程中出现的灾难性遗忘问题,尤其是在CLIP模型上。现有方法在持续微调过程中,容易忘记之前学习的任务,并且会破坏视觉和文本模态之间的对齐关系,导致零样本泛化能力下降。

核心思路:论文的核心思路是通过梯度零空间投影(Gradient Null Space Projection, GNSP)来避免新任务的学习干扰之前的知识。具体来说,就是将新任务的梯度投影到之前任务梯度的零空间中,从而保证更新方向不会影响之前任务的学习成果。此外,还结合知识蒸馏和模态对齐损失,以保持CLIP的泛化能力和模态对齐。

技术框架:GNSP方法主要包含以下几个部分:1) 梯度零空间投影:计算之前任务的梯度,并构建其零空间;将当前任务的梯度投影到该零空间,得到更新方向。2) 知识蒸馏:利用之前模型的输出来指导当前模型的学习,防止模型忘记之前的知识。3) 模态对齐损失:借鉴CLIP的预训练思想,通过对比学习的方式,保持视觉和文本模态之间的对齐关系。

关键创新:该方法最关键的创新在于梯度零空间投影。与以往的正则化方法或重放方法不同,GNSP通过数学上的正交投影,严格保证了新任务的学习不会干扰之前的任务,从而避免了灾难性遗忘。同时,结合知识蒸馏和模态对齐损失,进一步提升了模型的泛化能力和鲁棒性。

关键设计:在梯度零空间投影方面,需要选择合适的梯度计算方式和零空间构建方法。在知识蒸馏方面,需要选择合适的蒸馏损失函数和温度参数。在模态对齐损失方面,需要选择合适的对比学习目标函数和负样本采样策略。这些参数的选择都会影响最终的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

GNSP方法在MTIL基准测试中取得了SOTA性能,在Average和Last两个关键指标上均超越了现有方法。实验结果表明,GNSP能够有效保持CLIP的原始模态差距和跨模态检索性能,验证了其在持续学习过程中保持鲁棒视觉-语言空间的有效性。具体性能提升数据未知,但结论是显著的。

🎯 应用场景

该研究成果可应用于各种需要持续学习的视觉语言任务,例如:持续学习的图像分类、跨模态检索、视觉问答等。通过保持模型的零样本泛化能力,可以使其在不断变化的环境中更好地适应新的任务和数据,具有重要的实际应用价值和广阔的未来发展前景。

📄 摘要(原文)

Contrastive Language-Image Pretraining has demonstrated remarkable zero-shot generalization by aligning visual and textual modalities in a shared embedding space. However, when continuously fine-tuned on diverse tasks, CLIP suffers from catastrophic forgetting and degradation of its embedding alignment, undermining its zero-shot capabilities. In this work, we propose Gradient Null Space Projection (GNSP), an efficient continual learning method that projects task-specific gradients onto the null space of previously learned knowledge. This orthogonal projection mathematically prevents interference with previous tasks without relying on rehearsal or architectural modification. Furthermore, to preserve the inherent generalization property of CLIP, we introduce knowledge distillation and combine it with a modality alignment preservation loss inspired by CLIP pre-training to stabilize the structure of the multimodal embedding space during fine-tuning. On the MTIL benchmark consisting of 11 tasks, our method achieved SOTA performance on both the Average and Last key metrics. More importantly, experiments show that our method successfully maintains the original modality gap and cross-modal retrieval performance of CLIP, confirming its effectiveness in maintaining a robust visual-language space throughout the continual learning process.