Sparse Subspace-to-Expert Sharing for Task-Agnostic Continual Learning

📄 arXiv: 2606.07500v1 📥 PDF

作者: Fatema Siddika, Md Anwar Hossen, Tanwi Mallick, Ali Jannesari

分类: cs.LG, cs.AI

发布日期: 2026-06-05

备注: 19 pages. arXiv admin note: text overlap with arXiv:2601.17616


💡 一句话要点

提出SETA框架以解决大语言模型的持续学习问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 持续学习 大语言模型 稀疏专家 任务无关 知识保留 向后迁移 模型优化

📋 核心要点

  1. 现有方法未能有效解决大语言模型在持续学习中的塑性与稳定性矛盾,导致灾难性遗忘。
  2. 本文提出的SETA框架通过稀疏子空间分解,将知识分为任务特定专家和共享专家,从而有效隔离任务模式。
  3. 实验结果显示,SETA在LLaMA-2 7B和Qwen3-4B上相较于最先进的持续学习基线,显著提高了早期任务知识的保留和向后迁移能力。

📝 摘要(中文)

在大语言模型(LLMs)的持续学习中,塑性与稳定性之间的矛盾导致新能力的获取常常引发对先前知识的灾难性遗忘。现有方法通常将参数统一处理,未能区分特定任务知识与共享能力。本文提出了任务无关的持续学习框架——稀疏专家混合模型(SETA),通过自适应稀疏子空间分解为任务特定的专家模块,解决了塑性与稳定性冲突。SETA将知识分为独特的专家和共享专家,采用自适应弹性锚定和路由感知正则化,保护共享知识并在推理过程中自动检索正确的专家组合。实验结果表明,SETA在多个领域基准测试中表现出色,尤其在早期任务知识的保留和向后迁移方面相较于现有的持续学习基线具有竞争力或优越性。

🔬 方法详解

问题定义:本文旨在解决大语言模型在持续学习中面临的塑性与稳定性矛盾,现有方法未能区分任务特定知识与共享能力,导致灾难性遗忘。

核心思路:SETA框架通过自适应稀疏子空间分解,将知识分为独特的任务特定专家和共享专家,从而有效隔离任务模式,避免不同任务之间的参数竞争。

技术框架:SETA的整体架构包括任务特定专家模块和共享专家模块,采用自适应弹性锚定和路由感知正则化,确保在推理时能够自动检索正确的专家组合。

关键创新:SETA的主要创新在于通过稀疏子空间分解实现任务知识的有效隔离,与现有方法相比,能够更好地保护共享知识并减少灾难性遗忘。

关键设计:在设计中,采用了自适应弹性锚定机制和路由感知正则化,确保在权重和路由层面共同保护共享知识,同时构建了一个统一的门控网络以自动检索专家组合。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,SETA在多个领域基准测试中表现优异,尤其在LLaMA-2 7B和Qwen3-4B上,相较于最先进的持续学习基线,显著提高了早期任务知识的保留率和向后迁移能力,展示了其强大的应用潜力。

🎯 应用场景

该研究的潜在应用领域包括自然语言处理、智能对话系统和个性化推荐等。通过有效的持续学习机制,SETA能够在不断变化的任务环境中保持模型性能,具有重要的实际价值和未来影响。

📄 摘要(原文)

Continual learning in Large Language Models (LLMs) is hindered by the plasticity-stability dilemma, where acquiring new capabilities often leads to catastrophic forgetting of previous knowledge. Existing methods typically treat parameters uniformly, failing to distinguish between specific task knowledge and shared capabilities. We introduce Mixture of Sparse Experts for Task Agnostic Continual Learning (SETA), a framework that resolves the plasticity-stability conflict through adaptive sparse subspace decomposition into task-specific expert modules. Unlike standard updates, where tasks compete for the same parameters, SETA separates knowledge into unique experts, designed to isolate task-specific patterns, and shared experts, responsible for capturing common features. This structure is maintained through adaptive elastic anchoring and a routing-aware regularization that jointly protect shared knowledge at both the weight and routing levels and enable a unified gating network to automatically retrieve the correct expert combination during inference. Extensive experiments across diverse domain-specific benchmarks demonstrate that SETA achieves competitive or superior overall performance relative to state-of-the-art continual learning baselines, with particularly strong retention of early-task knowledge and improved backward transfer on LLaMA-2 7B and Qwen3-4B.