Superposition in Transformers: A Novel Way of Building Mixture of Experts

📄 arXiv: 2501.00530v2 📥 PDF

作者: Ayoub Ben Chaliah, Hela Dellagi

分类: cs.CL, cs.AI

发布日期: 2024-12-31 (更新: 2025-01-06)


💡 一句话要点

提出Transformer叠加方法,缓解LLM微调中的灾难性遗忘问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 灾难性遗忘 大型语言模型 微调 自编码器 知识叠加

📋 核心要点

  1. 大型语言模型微调时容易发生灾难性遗忘,导致在原始任务上的性能下降,这是模型适应新任务的主要挑战。
  2. 论文提出Transformer叠加方法,利用自编码器在共享参数空间叠加基础模型和微调模型的隐藏表示,实现模型内知识的叠加。
  3. 该方法通过B样条混合系数和自适应自编码器,有效缓解灾难性遗忘,并支持推理时在不同模型状态间动态切换。

📝 摘要(中文)

本文提出了一种名为Transformer叠加的新架构,旨在解决大型语言模型(LLM)适应新任务或领域时面临的灾难性遗忘问题。传统微调常常会覆盖现有知识,导致原始任务的性能下降。该方法利用自编码器在共享参数空间内叠加基础模型和微调模型的隐藏表示。通过使用基于B样条的混合系数和自适应地基于输入数据分布重建隐藏状态的自编码器,有效地缓解了灾难性遗忘,并实现了“模型内”叠加的新范式。这种方法在保留原始模型能力的同时,允许添加紧凑的领域特定知识,并支持推理期间模型状态之间的动态切换。

🔬 方法详解

问题定义:大型语言模型(LLM)在适应新任务或领域时,通过传统微调方法容易发生灾难性遗忘,即在学习新知识的同时,遗忘或覆盖了原有知识,导致在原始任务上的性能显著下降。现有微调方法难以在保留原有知识的同时,有效地学习新知识。

核心思路:论文的核心思路是利用叠加(Superposition)的思想,将基础模型和微调模型的知识表示叠加在同一个Transformer模型中,从而在不破坏原有知识的前提下,引入新的领域知识。通过自编码器学习如何有效地叠加和分离这些知识表示,实现知识的共存和动态切换。

技术框架:该方法的核心是Transformer叠加架构,主要包含以下几个模块:1) 基础Transformer模型;2) 针对特定任务微调后的Transformer模型;3) 自编码器,用于学习基础模型和微调模型的隐藏状态的表示,并进行叠加和分离;4) 基于B样条的混合系数,用于控制基础模型和微调模型在叠加表示中的权重;5) 动态切换机制,允许在推理时根据输入数据动态地选择使用基础模型、微调模型或叠加模型。

关键创新:该方法最重要的创新点在于提出了“模型内”叠加的概念,即通过自编码器学习如何将不同模型的知识表示叠加在同一个模型中,而不是像传统混合专家模型那样,简单地将多个模型组合在一起。这种方法可以更有效地利用模型参数,并实现知识的紧凑表示。与现有方法的本质区别在于,它不是通过修改模型结构或训练方式来避免灾难性遗忘,而是通过学习如何叠加和分离知识表示来实现知识的共存。

关键设计:关键设计包括:1) 自编码器的结构和训练方式,需要能够有效地学习隐藏状态的表示,并进行叠加和分离;2) B样条混合系数的选取,需要能够平滑地控制基础模型和微调模型的权重;3) 动态切换机制的设计,需要能够根据输入数据准确地选择合适的模型状态。损失函数可能包含重建损失(用于训练自编码器)、分类损失(用于微调模型)以及正则化项(用于避免过拟合)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文提出的Transformer叠加方法在缓解灾难性遗忘方面表现出色。实验结果表明,该方法在保留原始模型性能的同时,能够有效地学习新任务,并在新任务上取得与传统微调方法相当甚至更好的性能。具体的性能数据和对比基线需要在论文中查找,但整体趋势是显著优于直接微调。

🎯 应用场景

该研究成果可应用于各种需要快速适应新领域知识的大型语言模型场景,例如:医疗诊断、金融分析、法律咨询等。通过叠加领域特定知识,可以快速构建专业领域的AI助手,同时保持模型在通用任务上的性能。该方法还可用于持续学习,使模型能够不断学习新知识,而不会遗忘原有知识,具有重要的实际应用价值和未来发展潜力。

📄 摘要(原文)

Catastrophic forgetting remains a major challenge when adapting large language models (LLMs) to new tasks or domains. Conventional fine-tuning often overwrites existing knowledge, causing performance degradation on original tasks. We introduce Superposition in Transformers, a novel architecture that leverages autoencoders to superimpose the hidden representations of a base model and a fine-tuned model within a shared parameter space. By using B-spline-based blending coefficients and autoencoders that adaptively reconstruct hidden states based on the input data distribution, our method effectively mitigates catastrophic forgetting and enables a new paradigm of "in-model" superposition. This approach preserves original model capabilities while allowing compact domain-specific expertise to be added, and it supports dynamic switching between model states during inference.