TransMamba: Fast Universal Architecture Adaption from Transformers to Mamba

作者: Xiuwei Chen, Wentao Hu, Xiao Dong, Sihao Lin, Zisheng Chen, Meng Cao, Yina Zhuang, Jianhua Han, Hang Xu, Xiaodan Liang

分类: cs.CV

发布日期: 2025-02-21 (更新: 2025-10-09)

💡 一句话要点

TransMamba：利用Transformer预训练知识快速适配Mamba架构，实现通用架构迁移

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: Mamba Transformer 知识迁移 知识蒸馏 预训练模型 多模态学习 架构适配

📋 核心要点

现有Mamba架构训练成本高昂，从头训练需要大量数据和时间，限制了其应用。
TransMamba提出一种跨架构知识迁移方法，利用预训练Transformer知识初始化Mamba模型，加速训练过程。
实验表明，TransMamba在多种Mamba变体和下游任务上均优于基线方法，验证了其有效性。

📝 摘要（中文）

基于Transformer的架构已成为单模态和多模态基础模型的主干，这主要归功于其通过注意力机制实现的可扩展性，从而产生了丰富的公开预训练模型生态系统，如LLaVA、CLIP和DeiT等。与此同时，像Mamba这样新兴的亚二次复杂度架构，通过以线性复杂度实现全局上下文建模，提供了有希望的效率提升。然而，从头开始训练这些架构仍然需要大量的资源（例如，在数据和时间方面）。为了应对这一挑战，我们探索了一种跨架构的知识迁移范式，称为TransMamba，它有助于重用Transformer预训练的知识。我们提出了一个两阶段框架来加速基于Mamba的模型的训练，确保它们在单模态和多模态任务中的有效性。第一阶段利用预训练的Transformer模型来初始化Mamba架构的关键组件。为了弥合架构和维度上的差距，我们开发了一种选择性的权重子克隆策略和一种分层初始化方案，优先考虑前n层。在这一初始化的基础上，第二阶段引入了一种自适应的多方向知识蒸馏方法。这种机制采用逐层自适应缩放因子，使Mamba表示与其Transformer对应物对齐，同时适应多模态Mamba架构固有的扫描顺序变化。尽管使用减少的训练数据集和更紧凑的模型架构进行操作，TransMamba在各种基于Mamba的主干网络（例如，PlainMamba、Vmamba、ViM和VideoMamba）和下游任务（例如，图像分类、视觉问答、文本视频检索和多模态推理）中始终优于基线方法。所有代码和实现细节都将发布。

🔬 方法详解

问题定义：现有Mamba架构虽然在效率上具有优势，但从头开始训练需要大量的计算资源和数据，这限制了其在实际应用中的推广。如何高效地训练Mamba模型，使其能够利用已有的Transformer预训练知识，是一个亟待解决的问题。

核心思路：TransMamba的核心思路是利用Transformer预训练模型中的知识来初始化Mamba模型，从而避免从头开始训练Mamba模型。通过知识迁移，可以显著减少训练时间和数据需求，同时提高Mamba模型的性能。

技术框架：TransMamba采用两阶段训练框架。第一阶段是初始化阶段，利用预训练的Transformer模型来初始化Mamba架构的关键组件，包括选择性的权重子克隆策略和分层初始化方案。第二阶段是知识蒸馏阶段，引入自适应的多方向知识蒸馏方法，通过逐层自适应缩放因子，使Mamba表示与其Transformer对应物对齐。

关键创新：TransMamba的关键创新在于其跨架构的知识迁移方法，特别是选择性的权重子克隆策略和自适应的多方向知识蒸馏方法。选择性的权重子克隆策略能够有效地将Transformer模型中的知识迁移到Mamba模型中，而自适应的多方向知识蒸馏方法能够更好地对齐Mamba和Transformer模型的表示，从而提高Mamba模型的性能。

关键设计：在初始化阶段，TransMamba优先考虑前n层的初始化，认为这些层对于模型的性能至关重要。在知识蒸馏阶段，TransMamba使用逐层自适应缩放因子来调整Mamba和Transformer模型之间的表示对齐程度，以适应不同层的特征差异。损失函数的设计也考虑了多模态Mamba架构的扫描顺序变化，以确保知识迁移的有效性。

🖼️ 关键图片

📊 实验亮点

TransMamba在多种基于Mamba的主干网络（如PlainMamba、Vmamba、ViM和VideoMamba）和下游任务（如图像分类、视觉问答、文本视频检索和多模态推理）中均取得了显著的性能提升，证明了其有效性。具体性能数据将在论文发布后公开。

🎯 应用场景

TransMamba具有广泛的应用前景，可应用于图像分类、视觉问答、文本视频检索和多模态推理等领域。通过利用预训练的Transformer知识，TransMamba能够加速Mamba模型的训练，降低计算成本，并提高模型性能，从而推动Mamba架构在实际应用中的普及。

📄 摘要（原文）

Transformer-based architectures have become the backbone of both uni-modal and multi-modal foundation models, largely due to their scalability via attention mechanisms, resulting in a rich ecosystem of publicly available pre-trained models such as LLaVA, CLIP, and DeiT, etc. In parallel, emerging sub-quadratic architectures like Mamba offer promising efficiency gains by enabling global context modeling with linear complexity. However, training these architectures from scratch remains resource-intensive (e.g., in terms of data and time). Motivated by this challenge, we explore a cross-architecture knowledge transfer paradigm, termed TransMamba, that facilitates the reuse of Transformer pre-trained knowledge. We propose a two-stage framework to accelerate the training of Mamba-based models, ensuring their effectiveness across both uni-modal and multi-modal tasks. The first stage leverages pre-trained Transformer models to initialize critical components of the Mamba architecture. To bridge architectural and dimensional gaps, we develop a selective weight subcloning strategy and a layered initialization scheme that prioritizes the early $n$ layers. Building on this initialization, the second stage introduces an adaptive multi-directional knowledge distillation method. This mechanism employs layer-wise adaptive scaling factors to align Mamba representations with their Transformer counterparts, while accommodating the scanning order variations inherent to multi-modal Mamba architectures. Despite operating with a reduced training dataset and a more compact model architecture, TransMamba consistently outperforms baseline approaches across diverse mamba-based backbones (e.g., PlainMamba, Vmamba, ViM and VideoMamba) and downstream tasks (e.g., image classification, visual question answering, text-video retrieval and multimodal reasoning). All code and implementation details will be released.

TransMamba: Fast Universal Architecture Adaption from Transformers to Mamba

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理