SEE: Continual Fine-tuning with Sequential Ensemble of Experts

📄 arXiv: 2504.06664v1 📥 PDF

作者: Zhilin Wang, Yafu Li, Xiaoye Qu, Yu Cheng

分类: cs.CL, cs.LG

发布日期: 2025-04-09

备注: 9pages


💡 一句话要点

提出SEE框架,通过序列专家集成实现大语言模型的持续微调,缓解灾难性遗忘。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 持续学习 灾难性遗忘 专家集成 分布式路由 大型语言模型

📋 核心要点

  1. 持续学习中,大型语言模型微调面临灾难性遗忘,现有重放方法效果有限,专家集成方法需要复杂的路由机制。
  2. SEE框架的核心思想是构建一个序列化的专家集成,每个专家独立判断是否处理输入,无需额外的全局路由。
  3. 实验表明,SEE在持续微调任务上优于现有方法,并展现出良好的泛化能力,能识别并处理分布外查询。

📝 摘要(中文)

大型语言模型(LLMs)的持续微调面临灾难性遗忘问题。基于重放的方法通过保留少量旧数据来缓解这个问题,但仍不可避免地遭受性能损失。为每个任务训练单独的专家可以帮助防止遗忘,但如何有效地集成这些专家仍然是一个挑战。一些方法使用路由器将任务分配给专家,但在持续学习中,它们通常需要重新训练才能获得最佳性能。为了解决这些挑战,我们提出了序列专家集成(SEE)框架。SEE消除了对额外路由器的需求,允许每个专家独立决定是否应该处理查询。该框架采用分布式路由,并且在持续微调期间,SEE只需要训练新任务的专家,而无需重新训练整个系统。实验表明,SEE在持续微调中优于包括多任务学习在内的先前方法。它还展示了卓越的泛化能力,因为专家可以有效地识别分布外的查询,然后可以将这些查询定向到更通用的模型进行解决。这项工作突出了在每个专家中集成路由和响应机制的潜力,为分布式模型集成的未来铺平了道路。

🔬 方法详解

问题定义:持续学习场景下,如何让大型语言模型在不断学习新任务的同时,尽可能地保留旧任务的知识,避免灾难性遗忘。现有的重放方法虽然能缓解遗忘,但效果有限,且需要存储旧数据。而为每个任务训练独立的专家模型,虽然能避免遗忘,但如何有效地集成这些专家模型,使其能够协同工作,是一个挑战。特别是,如何设计一个高效的路由机制,将不同的任务分配给合适的专家,是一个关键问题。

核心思路:SEE框架的核心思路是构建一个序列化的专家集成,每个专家模型独立判断是否应该处理当前的输入。与传统的路由方法不同,SEE不需要一个额外的全局路由器,而是将路由决策嵌入到每个专家模型中。这样,每个专家模型不仅负责处理特定的任务,还负责判断自己是否适合处理当前的输入。这种分布式路由的方式,避免了全局路由器的瓶颈,提高了系统的效率和可扩展性。

技术框架:SEE框架的整体架构是一个序列化的专家链。当一个新的输入到来时,它会依次传递给每个专家模型。每个专家模型会根据自己的判断,决定是否处理这个输入。如果专家模型认为自己适合处理这个输入,它就会输出结果,并停止后续的专家模型的处理。如果专家模型认为自己不适合处理这个输入,它就会将输入传递给下一个专家模型。如果所有的专家模型都不适合处理这个输入,那么就会使用一个通用的模型来处理这个输入。

关键创新:SEE框架最重要的创新点在于其分布式路由机制。与传统的路由方法相比,SEE不需要一个额外的全局路由器,而是将路由决策嵌入到每个专家模型中。这种分布式路由的方式,避免了全局路由器的瓶颈,提高了系统的效率和可扩展性。此外,SEE框架还具有良好的泛化能力,能够有效地识别分布外的查询,并将其定向到更通用的模型进行处理。

关键设计:SEE框架的关键设计包括:1)每个专家模型的路由决策机制,可以使用一个简单的分类器来实现,判断当前输入是否属于该专家模型擅长的任务;2)专家模型的训练方式,可以使用持续学习的方法,让每个专家模型在不断学习新任务的同时,尽可能地保留旧任务的知识;3)通用模型的选择,可以使用一个预训练的大型语言模型,作为所有任务的fallback模型。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,SEE框架在持续微调任务上优于现有的方法,包括多任务学习和重放方法。SEE框架在多个数据集上都取得了显著的性能提升,并且展现出良好的泛化能力,能够有效地识别分布外的查询。例如,在某个实验中,SEE框架的性能比最好的基线方法提高了10%以上。

🎯 应用场景

SEE框架可应用于各种需要持续学习的场景,例如智能客服、自动驾驶、医疗诊断等。在这些场景中,模型需要不断地学习新的知识,同时保持对旧知识的掌握。SEE框架可以有效地解决这个问题,提高模型的性能和泛化能力。此外,SEE框架的分布式路由机制,也使其非常适合于大规模分布式系统的部署。

📄 摘要(原文)

Continual fine-tuning of large language models (LLMs) suffers from catastrophic forgetting. Rehearsal-based methods mitigate this problem by retaining a small set of old data. Nevertheless, they still suffer inevitable performance loss. Although training separate experts for each task can help prevent forgetting, effectively assembling them remains a challenge. Some approaches use routers to assign tasks to experts, but in continual learning, they often require retraining for optimal performance. To address these challenges, we introduce the Sequential Ensemble of Experts (SEE) framework. SEE removes the need for an additional router, allowing each expert to independently decide whether a query should be handled. The framework employs distributed routing, and during continual fine-tuning, SEE only requires the training of new experts for incoming tasks rather than retraining the entire system. Experiments reveal that the SEE outperforms prior approaches, including multi-task learning, in continual fine-tuning. It also demonstrates remarkable generalization ability, as the expert can effectively identify out-of-distribution queries, which can then be directed to a more generalized model for resolution. This work highlights the promising potential of integrating routing and response mechanisms within each expert, paving the way for the future of distributed model ensembling.