Analytic Subspace Routing: How Recursive Least Squares Works in Continual Learning of Large Language Model
作者: Kai Tong, Kang Pan, Xiao Zhang, Erli Meng, Run He, Yawen Cui, Nuoyan Guo, Huiping Zhuang
分类: cs.LG, cs.AI, cs.CL
发布日期: 2025-03-17 (更新: 2025-07-08)
备注: 11 pages, 4 figures
💡 一句话要点
提出分析子空间路由(ASR)方法,解决大语言模型持续学习中的知识遗忘和任务干扰问题。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 持续学习 大语言模型 知识遗忘 任务干扰 子空间学习 递归最小二乘 低秩自适应
📋 核心要点
- 现有大语言模型持续学习方法存在计算成本高或知识吸收受限的问题,难以兼顾新知识学习和旧知识保留。
- 论文提出分析子空间路由(ASR)方法,通过子空间隔离和分析路由机制,实现任务间的知识解耦和有效利用。
- 实验结果表明,ASR方法在持续学习过程中能有效保留先前知识,并无缝集成新信息,克服了现有方法的局限性。
📝 摘要(中文)
大型语言模型(LLMs)具有处理各种语言相关任务的广泛能力。然而,在LLMs上进行微调会削弱这种通用技能,而持续微调会进一步导致累积知识的严重退化。最近,大语言模型中的持续学习(CL)兴起,旨在使LLMs能够持续适应新任务,同时保持先前学习的知识并继承通用技能。现有技术要么利用先前的数据进行重放,导致额外的计算成本,要么利用单个参数高效模块来学习下游任务,从而限制了新知识的吸收以及不同任务之间的干扰。针对这些问题,本文提出了分析子空间路由(ASR)来解决这些挑战。对于每个任务,我们通过低秩自适应将学习隔离在深层特征的子空间内,从而消除了不同任务之间的知识干扰。此外,我们提出了一种分析路由机制,以正确利用在不同子空间中学习的知识。我们的方法采用递归最小二乘法来训练多任务路由器模型,使路由器能够动态适应传入的数据,而无需访问历史数据。此外,该路由器有效地将当前任务分配给适当的子空间,并具有先前学习任务的非遗忘特性,并具有可靠的理论保证。实验结果表明,我们的方法实现了对先前知识的近乎完美的保留,同时无缝地整合了新信息,有效地克服了现有方法的核心局限性。我们的代码将在接收后发布。
🔬 方法详解
问题定义:论文旨在解决大语言模型在持续学习过程中出现的灾难性遗忘和任务间干扰问题。现有方法,如重放旧数据,计算成本高昂;而使用单一参数高效模块,则限制了新知识的吸收,并导致任务间相互干扰。
核心思路:论文的核心思路是将不同任务的学习过程隔离在不同的子空间中,从而避免任务间的知识干扰。同时,设计一种分析路由机制,能够根据当前任务的特点,动态地选择合适的子空间进行知识利用。
技术框架:ASR方法主要包含两个核心模块:子空间学习和分析路由。子空间学习模块使用低秩自适应(Low-Rank Adaptation, LoRA)技术,为每个任务学习一个独立的子空间。分析路由模块则使用递归最小二乘法(Recursive Least Squares, RLS)训练一个多任务路由器模型,该模型能够根据输入数据动态地选择合适的子空间。
关键创新:论文的关键创新在于提出了分析路由机制,该机制能够动态地将当前任务分配到合适的子空间,并具有非遗忘特性。与现有方法相比,ASR方法无需访问历史数据,即可实现知识的保留和新知识的整合。
关键设计:在子空间学习中,使用LoRA进行低秩自适应,减少了参数量,提高了学习效率。在分析路由中,使用RLS算法训练路由器模型,使其能够动态适应输入数据,并具有理论上的非遗忘保证。具体参数设置和网络结构细节将在代码发布后公开。
🖼️ 关键图片
📊 实验亮点
实验结果表明,ASR方法在持续学习过程中能够近乎完美地保留先前知识,同时无缝地整合新信息。该方法有效地克服了现有方法的核心局限性,在知识保留和新知识学习方面取得了显著的平衡。
🎯 应用场景
该研究成果可应用于需要持续学习和适应新任务的大语言模型场景,例如智能客服、机器翻译、内容生成等。通过避免灾难性遗忘和任务间干扰,可以提升模型的长期性能和泛化能力,使其更好地适应不断变化的应用环境。
📄 摘要(原文)
Large Language Models (LLMs) possess encompassing capabilities that can process diverse language-related tasks. However, finetuning on LLMs will diminish this general skills and continual finetuning will further cause severe degradation on accumulated knowledge. Recently, Continual Learning (CL) in Large Language Models (LLMs) arises which aims to continually adapt the LLMs to new tasks while maintaining previously learned knowledge and inheriting general skills. Existing techniques either leverage previous data to replay, leading to extra computational costs, or utilize a single parameter-efficient module to learn the downstream task, constraining new knowledge absorption with interference between different tasks. Toward these issues, this paper proposes Analytic Subspace Routing(ASR) to address these challenges. For each task, we isolate the learning within a subspace of deep layers' features via low-rank adaptation, eliminating knowledge interference between different tasks. Additionally, we propose an analytic routing mechanism to properly utilize knowledge learned in different subspaces. Our approach employs Recursive Least Squares to train a multi-task router model, allowing the router to dynamically adapt to incoming data without requiring access to historical data. Also, the router effectively assigns the current task to an appropriate subspace and has a non-forgetting property of previously learned tasks with a solid theoretical guarantee. Experimental results demonstrate that our method achieves near-perfect retention of prior knowledge while seamlessly integrating new information, effectively overcoming the core limitations of existing methods. Our code will be released after acceptance.