Fast-Slow Efficient Training for Multimodal Large Language Models via Visual Token Pruning

作者: Dingkun Zhang, Shuhan Qi, Yulin Wu, Xinyu Xiao, Xuan Wang, Long Chen

分类: cs.CV, cs.LG

发布日期: 2026-02-03

🔗 代码/项目: GITHUB

💡 一句话要点

DualSpeed：通过视觉Token剪枝加速多模态大语言模型训练，解决训练-推理不一致问题。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 高效训练 视觉Token剪枝 快慢双模式 自蒸馏

📋 核心要点

多模态大语言模型训练效率低，主要由于模型规模庞大和视觉token数量过多，现有方法侧重于减少模型参数。
DualSpeed框架通过快慢双模式训练，快模式剪枝视觉token加速训练，慢模式全token训练保持推理一致性。
实验表明，DualSpeed能显著加速LLaVA-1.5和LLaVA-NeXT的训练，同时保持接近原始模型的性能水平。

📝 摘要（中文）

多模态大语言模型(MLLMs)面临严重的训练效率问题，这与其庞大的模型规模和视觉token数量有关。现有的高效训练方法主要集中在减少模型大小或可训练参数上。受视觉Token剪枝(VTP)在提高推理效率方面的成功的启发，我们探索了通过减少视觉token来实现高效训练的另一个重要研究方向。然而，在训练阶段应用VTP会导致训练-推理不匹配：经过剪枝训练的模型在非剪枝的完整视觉token序列上进行推理时表现不佳。为了弥合这一差距，我们提出了DualSpeed，一个用于MLLMs高效训练的快-慢框架。快模式是主要模式，它将现有的VTP方法作为插件来减少视觉token，并使用模式隔离器来隔离模型的行为。慢模式是辅助模式，模型在完整的视觉序列上进行训练，以保持训练-推理一致性。为了促进其训练，它进一步利用自蒸馏从充分训练的快模式中学习。总之，DualSpeed可以实现训练效率和非退化的性能。实验表明，DualSpeed将LLaVA-1.5的训练加速了2.1倍，将LLaVA-NeXT的训练加速了4.0倍，同时保留了超过99%的性能。

🔬 方法详解

问题定义：论文旨在解决多模态大语言模型（MLLMs）训练效率低下的问题。现有方法主要集中在减少模型大小或可训练参数，而忽略了视觉token数量的影响。直接在训练阶段应用视觉token剪枝（VTP）虽然可以加速训练，但会导致训练和推理阶段的不一致性，即剪枝训练的模型在完整视觉token序列上推理时性能下降。

核心思路：论文的核心思路是采用“快-慢”双模式训练框架，DualSpeed。快模式利用VTP加速训练，慢模式则在完整视觉token序列上训练，以弥补训练-推理差异。同时，慢模式通过自蒸馏学习快模式的知识，进一步提升训练效率。

技术框架：DualSpeed框架包含两个主要模式：快模式和慢模式。快模式是主要训练模式，它集成了现有的VTP方法，并使用一个模式隔离器来隔离模型的行为。慢模式是辅助模式，用于在完整的视觉序列上训练模型，以保持训练-推理的一致性。慢模式还利用自蒸馏从快模式中学习，以提高训练效率。整体流程是先进行快模式的训练，然后利用快模式的结果指导慢模式的训练。

关键创新：DualSpeed的关键创新在于提出了一个双模式训练框架，该框架能够同时实现训练效率和性能保持。通过快模式的VTP加速训练，并通过慢模式的完整序列训练和自蒸馏来弥补训练-推理差异，从而避免了性能下降。这种快慢结合的训练方式是与现有方法的本质区别。

关键设计：DualSpeed的关键设计包括：1) 快模式中VTP方法的选择（可以是任何现有的VTP方法）；2) 模式隔离器的设计，用于隔离快慢模式之间的行为差异；3) 慢模式中的自蒸馏策略，如何有效地从快模式中学习知识；4) 快慢模式的训练比例和学习率设置，需要仔细调整以达到最佳效果。

🖼️ 关键图片

📊 实验亮点

实验结果表明，DualSpeed能够显著加速多模态大语言模型的训练，同时保持较高的性能。具体来说，DualSpeed将LLaVA-1.5的训练加速了2.1倍，将LLaVA-NeXT的训练加速了4.0倍，同时保留了超过99%的性能。这表明DualSpeed在提高训练效率的同时，有效地解决了训练-推理不一致的问题。

🎯 应用场景

该研究成果可广泛应用于各种多模态大语言模型的训练加速，尤其是在计算资源有限的情况下。例如，可以用于训练更大规模、更复杂的多模态模型，或者在边缘设备上部署多模态应用。该方法还有助于推动多模态学习在机器人、自动驾驶、智能助手等领域的应用。

📄 摘要（原文）

Multimodal Large Language Models (MLLMs) suffer from severe training inefficiency issue, which is associated with their massive model sizes and visual token numbers. Existing efforts in efficient training focus on reducing model sizes or trainable parameters. Inspired by the success of Visual Token Pruning (VTP) in improving inference efficiency, we are exploring another substantial research direction for efficient training by reducing visual tokens. However, applying VTP at the training stage results in a training-inference mismatch: pruning-trained models perform poorly when inferring on non-pruned full visual token sequences. To close this gap, we propose DualSpeed, a fast-slow framework for efficient training of MLLMs. The fast-mode is the primary mode, which incorporates existing VTP methods as plugins to reduce visual tokens, along with a mode isolator to isolate the model's behaviors. The slow-mode is the auxiliary mode, where the model is trained on full visual sequences to retain training-inference consistency. To boost its training, it further leverages self-distillation to learn from the sufficiently trained fast-mode. Together, DualSpeed can achieve both training efficiency and non-degraded performance. Experiments show DualSpeed accelerates the training of LLaVA-1.5 by 2.1$\times$ and LLaVA-NeXT by 4.0$\times$, retaining over 99% performance. Code: https://github.com/dingkun-zhang/DualSpeed

Fast-Slow Efficient Training for Multimodal Large Language Models via Visual Token Pruning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理