Octopus: History-Free Gradient Orthogonalization for Continual Learning in Multimodal Large Language Models
作者: Yuehao Liu, Shanyan Guan, Weijia Zhang, Xuanming Shang, Yanhao Ge, Wei Li, Chao Ma
分类: cs.LG, cs.CV
发布日期: 2026-05-14
💡 一句话要点
Octopus:多模态大语言模型中基于无历史梯度正交的持续学习框架
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 持续学习 多模态大语言模型 梯度正交化 灾难性遗忘 无历史学习
📋 核心要点
- 现有持续学习方法在多模态大语言模型中面临灾难性遗忘问题,架构调整引入额外计算,数据重放则涉及隐私和存储风险。
- Octopus框架通过无历史梯度正交(HiFGO)实现梯度层面的正交性,无需存储历史数据,有效缓解参数干扰。
- 实验结果表明,Octopus在UCIT基准测试中取得了显著的性能提升,超越了现有最佳方法,证明了其有效性。
📝 摘要(中文)
多模态大语言模型(MLLM)中的持续学习旨在顺序获取知识,同时减轻灾难性遗忘。然而,现有方法面临固有的局限性:基于架构的方法会产生额外的计算开销,并且通常难以泛化到新任务;基于重放的方法依赖于存储历史数据,引发隐私和存储方面的担忧;而传统的基于正则化的策略不足以完全防止参数干扰。我们提出了Octopus,一个基于无历史梯度正交(HiFGO)的两阶段持续学习框架,它在梯度层面强制执行正交性,而无需历史任务数据。我们提出的两阶段微调策略将任务适应与正则化分离,从而在可塑性和稳定性之间实现有原则的平衡。在UCIT上的实验表明,Octopus建立了最先进的性能,在Avg和Last方面分别超过先前的SOTA 2.14%和6.82%。
🔬 方法详解
问题定义:论文旨在解决多模态大语言模型在持续学习过程中出现的灾难性遗忘问题。现有方法,如基于架构的方法计算开销大,泛化能力弱;基于重放的方法需要存储历史数据,存在隐私和存储问题;而传统的正则化方法无法完全避免参数之间的干扰。
核心思路:论文的核心思路是通过在梯度层面强制执行正交性来减少不同任务之间的参数干扰,从而缓解灾难性遗忘。这种方法不需要存储历史数据,因此避免了隐私和存储问题。通过两阶段的微调策略,将任务适应和正则化解耦,从而在模型的可塑性和稳定性之间取得平衡。
技术框架:Octopus框架包含两个主要阶段:第一阶段是任务适应阶段,模型针对新任务进行微调,学习新知识。第二阶段是正则化阶段,通过HiFGO方法,对梯度进行正交化处理,减少新任务对先前任务的影响。整体流程是先适应新任务,再进行梯度正交化,从而保证模型在学习新知识的同时,尽可能保留旧知识。
关键创新:最重要的技术创新点是提出了无历史梯度正交(HiFGO)方法。与现有方法相比,HiFGO不需要存储历史数据,而是直接在梯度层面进行操作,强制不同任务的梯度方向正交,从而减少参数干扰。这种方法在保证模型学习新知识的同时,有效地缓解了灾难性遗忘。
关键设计:HiFGO的关键设计在于如何计算和应用梯度正交性约束。具体来说,对于每个新任务,计算其梯度方向,并将其与先前任务的梯度方向进行正交化。可以使用Gram-Schmidt正交化过程来实现。损失函数中包含一个正则化项,用于惩罚梯度之间的非正交性。此外,两阶段微调策略也是关键设计之一,它将任务适应和正则化解耦,使得模型能够更好地平衡可塑性和稳定性。
🖼️ 关键图片
📊 实验亮点
Octopus在UCIT基准测试中取得了显著的性能提升,在Avg指标上超越了先前的SOTA 2.14%,在Last指标上超越了6.82%。这些结果表明,Octopus框架能够有效地缓解多模态大语言模型中的灾难性遗忘问题,并显著提高模型的持续学习能力。实验结果充分验证了HiFGO方法的有效性。
🎯 应用场景
该研究成果可应用于需要持续学习新知识的多模态大语言模型,例如智能客服、智能助手、自动驾驶等领域。这些应用场景需要模型能够不断学习新的信息和技能,同时保持对先前知识的记忆。Octopus框架能够有效地缓解灾难性遗忘问题,提高模型的持续学习能力,从而提升这些应用场景的性能和用户体验。
📄 摘要(原文)
Continual learning in multimodal large language models (MLLMs) aims to sequentially acquire knowledge while mitigating catastrophic forgetting, yet existing methods face inherent limitations: architecture-based approaches incur additional computational overhead and often generalize poorly to new tasks, rehearsal-based methods rely on storing historical data, raising privacy and storage concerns, and conventional regularization-based strategies alone are insufficient to fully prevent parameter interference. We propose Octopus, a two-stage continual learning framework based on History-Free Gradient Orthogonalization (HiFGO), which enforces gradient-level orthogonality without historical task data. Our proposed two-stage finetuning strategy decouples task adaptation from regularization, achieving a principled balance between plasticity and stability. Experiments on UCIT show that Octopus establishes state-of-the-art performance, surpassing prior SOTA by 2.14% and 6.82% in terms of Avg and Last.