Chain-of-Models Pre-Training: Rethinking Training Acceleration of Vision Foundation Models

📄 arXiv: 2604.12391v1 📥 PDF

作者: Jiawei Fan, Shigeng Wang, Chao Li, Xiaolong Liu, Anbang Yao

分类: cs.CV, cs.AI

发布日期: 2026-04-14

备注: This work is accepted to CVPR 2026. Code is available at https://github.com/deep-optimization/CoM-PT


💡 一句话要点

提出模型链预训练(CoM-PT),加速视觉基础模型训练且无性能损失。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉基础模型 预训练 知识迁移 模型加速 模型链

📋 核心要点

  1. 现有视觉基础模型训练方法通常独立优化每个模型,效率较低,难以适应模型家族的扩展。
  2. CoM-PT构建模型链,从小到大依次预训练,通过逆向知识迁移,利用小模型的知识加速大模型的训练。
  3. 实验表明,CoM-PT在多个数据集上实现了性能提升,并显著降低了训练成本,且模型越多加速效果越明显。

📝 摘要(中文)

本文提出了一种名为模型链预训练(CoM-PT)的全新视觉基础模型(VFM)训练加速方法,该方法在不损失性能的前提下显著提升训练效率。CoM-PT的核心动机与现有加速方法不同:它不是单独优化每个模型,而是在模型家族层面加速训练流程,并随着模型家族的扩展而高效扩展。具体而言,CoM-PT为模型家族建立了一个预训练序列,按照模型大小升序排列,称为模型链。在该链中,只有最小的模型接受标准的独立预训练,而其他模型则通过从其较小的先驱模型中进行顺序逆向知识迁移来高效训练,通过联合重用参数空间和特征空间中的知识。结果表明,CoM-PT使所有模型都能获得优于标准独立训练的性能,同时显著降低训练成本,这已在涵盖零样本和微调任务的45个数据集上得到广泛验证。值得注意的是,其高效的扩展性产生了一个显著的现象:训练更多模型反而带来更高的效率。例如,在CC3M上进行预训练时:i) 给定ViT-L作为最大模型,逐步将较小的模型添加到模型链中,可将计算复杂度降低高达72%;ii) 在固定的模型尺寸范围内,随着VFM家族扩展到3、4和7个模型,CoM-PT的加速比呈现出惊人的飞跃:从4.13倍到5.68倍和7.09倍。由于CoM-PT自然地与特定的预训练范式无关,我们开源了代码,以促进在计算密集型场景(如大型语言模型预训练)中的进一步扩展。

🔬 方法详解

问题定义:现有视觉基础模型(VFM)的训练通常是针对每个模型独立进行的,计算成本高昂,尤其是在需要训练一系列不同大小的模型时,效率低下。这种独立训练的方式没有充分利用不同模型之间的知识关联,导致训练资源浪费。

核心思路:CoM-PT的核心思路是构建一个“模型链”,按照模型大小升序排列。链中的每个模型都从其前一个较小的模型中学习,通过知识迁移的方式加速训练。最小的模型进行标准的独立预训练,而后续较大的模型则利用之前训练好的小模型的知识进行初始化和训练,从而避免从头开始训练,显著降低计算成本。

技术框架:CoM-PT的整体框架包括以下几个主要阶段:1) 模型链构建:根据模型大小(例如参数量或计算复杂度)对模型家族进行排序,形成一个从小到大的模型链。2) 初始模型预训练:链中最小的模型使用标准的预训练方法进行训练。3) 逆向知识迁移:从链中的前一个模型向后一个模型进行知识迁移。这通常包括参数空间的迁移(例如权重初始化)和特征空间的迁移(例如特征对齐)。4) 后续模型训练:利用迁移的知识对后续模型进行微调或进一步训练,使其达到目标性能。

关键创新:CoM-PT的关键创新在于其“模型链”的概念和“逆向知识迁移”的策略。与传统的独立训练方法不同,CoM-PT将模型家族视为一个整体,通过知识共享来加速训练过程。逆向知识迁移允许较大的模型利用较小模型的知识,从而避免了从头开始训练的需要,显著降低了计算成本。此外,CoM-PT的加速效果随着模型家族的扩大而增强,这使得它特别适用于需要训练多个不同大小模型的场景。

关键设计:CoM-PT的关键设计包括:1) 模型链的构建策略:如何选择模型家族中的模型,以及如何确定模型链的顺序。2) 知识迁移的方法:如何将知识从较小的模型迁移到较大的模型,包括参数空间的迁移(例如权重初始化、参数映射)和特征空间的迁移(例如特征对齐、特征蒸馏)。3) 训练策略:如何对迁移后的模型进行微调或进一步训练,以达到目标性能。具体的损失函数和优化器选择可能需要根据具体的任务和数据集进行调整。论文中可能使用了特定的损失函数来对齐不同模型之间的特征表示,或者使用了特定的优化策略来加速收敛。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,CoM-PT在45个数据集上实现了优于标准独立训练的性能,同时显著降低了训练成本。在CC3M数据集上,当以ViT-L为最大模型时,通过增加模型链中的模型数量,计算复杂度降低高达72%。随着模型家族从3个扩展到7个模型,加速比从4.13倍提升到7.09倍,展示了CoM-PT优异的扩展性。

🎯 应用场景

CoM-PT可广泛应用于视觉基础模型的预训练,尤其适用于需要训练多个不同大小模型的场景,例如目标检测、图像分割、图像分类等。该方法能够显著降低训练成本,加速模型开发周期,并促进更大规模视觉基础模型的研究和应用。未来,该方法有望扩展到其他领域,如自然语言处理和多模态学习。

📄 摘要(原文)

In this paper, we present Chain-of-Models Pre-Training (CoM-PT), a novel performance-lossless training acceleration method for vision foundation models (VFMs). This approach fundamentally differs from existing acceleration methods in its core motivation: rather than optimizing each model individually, CoM-PT is designed to accelerate the training pipeline at the model family level, scaling efficiently as the model family expands. Specifically, CoM-PT establishes a pre-training sequence for the model family, arranged in ascending order of model size, called model chain. In this chain, only the smallest model undergoes standard individual pre-training, while the other models are efficiently trained through sequential inverse knowledge transfer from their smaller predecessors by jointly reusing the knowledge in the parameter space and the feature space. As a result, CoM-PT enables all models to achieve performance that is mostly superior to standard individual training while significantly reducing training cost, and this is extensively validated across 45 datasets spanning zero-shot and fine-tuning tasks. Notably, its efficient scaling property yields a remarkable phenomenon: training more models even results in higher efficiency. For instance, when pre-training on CC3M: i) given ViT-L as the largest model, progressively prepending smaller models to the model chain reduces computational complexity by up to 72%; ii) within a fixed model size range, as the VFM family scales across 3, 4, and 7 models, the acceleration ratio of CoM-PT exhibits a striking leap: from 4.13X to 5.68X and 7.09X. Since CoM-PT is naturally agnostic to specific pre-training paradigms, we open-source the code to spur further extensions in more computationally intensive scenarios, such as large language model pre-training.