Revisiting Model Stitching In the Foundation Model Era
作者: Zheda Mai, Ke Zhang, Fu-En Wang, Zixiao Ken Wang, Albert Y. C. Chen, Lu Xia, Min Sun, Wei-Lun Chao, Cheng-Hao Kuo
分类: cs.CV, cs.AI, cs.LG
发布日期: 2026-03-12
备注: Accepted by CVPR 2023
💡 一句话要点
重探基础模型时代的模型缝合技术,实现异构视觉基础模型的有效集成。
🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 模型缝合 视觉基础模型 特征匹配 多模态学习 表征学习
📋 核心要点
- 现有模型缝合方法在异构视觉基础模型(VFMs)上的性能不足,尤其是在浅层缝合点,精度损失严重。
- 提出一种基于目标模型倒数第二层特征匹配损失的缝合方法,实现异构VFMs的可靠缝合,提升整体性能。
- 实验表明,深层缝合点可以使缝合后的模型超越任何一个组成模型,同时提出了VFM缝合树,实现精度-延迟权衡。
📝 摘要(中文)
模型缝合是一种通过轻量级的缝合层将一个模型(源模型)的早期层连接到另一个模型(目标模型)的后期层的技术,用于探测表征的兼容性。先前的工作发现,即使初始化或目标不同,在相同数据集上训练的模型仍然可以缝合(精度下降可忽略不计)。我们重新审视了视觉基础模型(VFMs)的缝合,这些模型在目标、数据和模态混合方面各不相同(例如,CLIP、DINOv2、SigLIP)。我们提出了一个系统的协议,涵盖缝合点、缝合层族、训练损失和下游任务。研究结果有三点:(1) 缝合层训练至关重要:匹配缝合点中间特征或端到端优化任务损失的传统方法难以保持精度,尤其是在浅层缝合点。(2) 通过在目标模型的倒数第二层使用简单的特征匹配损失,异构VFMs可以在各种视觉任务中可靠地缝合。(3) 对于深层缝合点,缝合后的模型可以超越任何一个组成模型,且只有很小的推理开销(对于缝合层)。基于这些发现,我们进一步提出了VFM缝合树(VST),它在VFMs之间共享早期层,同时保留它们的后期层,从而为通常利用多个VFMs的多模态LLM提供可控的精度-延迟权衡。总而言之,我们的研究将缝合从一种诊断探针提升为一种实用的方法,用于整合互补的VFM优势,并查明它们的表征对齐或差异之处。
🔬 方法详解
问题定义:论文旨在解决异构视觉基础模型(VFMs)之间的有效集成问题。现有模型缝合方法,如直接匹配中间特征或端到端优化任务损失,在异构VFMs上表现不佳,尤其是在浅层缝合点,导致精度显著下降。这些方法未能充分利用不同VFMs的互补优势,限制了模型集成效果。
核心思路:论文的核心思路是通过在目标模型的倒数第二层引入简单的特征匹配损失,来弥合异构VFMs之间的表征差异。这种方法旨在对齐源模型和目标模型在关键特征空间中的表示,从而实现更平滑的过渡和更好的性能。通过专注于目标模型的倒数第二层,可以更好地保留目标模型的判别能力,同时允许源模型提供有用的早期特征。
技术框架:整体框架包括以下步骤:1) 选择源模型和目标模型;2) 确定缝合点(即连接源模型和目标模型的层);3) 添加一个轻量级的缝合层;4) 使用特征匹配损失训练缝合层,该损失旨在最小化源模型和目标模型在缝合点之后的倒数第二层特征之间的差异;5) 在下游任务上评估缝合模型的性能。此外,论文还提出了VFM缝合树(VST),它允许多个VFMs共享早期层,从而实现精度-延迟权衡。
关键创新:最重要的技术创新点在于使用目标模型倒数第二层的特征匹配损失进行缝合层训练。与传统的特征匹配或端到端训练方法相比,这种方法能够更有效地对齐异构VFMs的表征,从而实现更好的缝合性能。此外,VFM缝合树的设计也提供了一种灵活的方式来集成多个VFMs,并根据具体应用的需求进行精度和延迟的权衡。
关键设计:关键设计包括:1) 缝合层结构的选择(例如,线性层、MLP);2) 特征匹配损失函数的选择(例如,L2损失、余弦相似度损失);3) 缝合点的选择(不同深度);4) 训练超参数的设置(例如,学习率、batch size)。论文特别强调了目标模型倒数第二层特征匹配损失的重要性,并建议根据具体任务和模型选择合适的损失函数和缝合点。
🖼️ 关键图片
📊 实验亮点
实验结果表明,使用目标模型倒数第二层特征匹配损失进行缝合层训练,可以显著提升异构VFMs的缝合性能。对于深层缝合点,缝合后的模型可以超越任何一个组成模型,且只有很小的推理开销。VFM缝合树能够实现精度和延迟之间的有效权衡,为多模态LLM提供了一种灵活的集成方案。
🎯 应用场景
该研究成果可应用于多模态大型语言模型(LLM),通过VFM缝合树共享早期层,实现精度和延迟之间的可控权衡。此外,该方法还可用于集成不同视觉基础模型的优势,提升图像分类、目标检测、图像分割等下游任务的性能。该技术在自动驾驶、智能安防、医疗影像分析等领域具有潜在应用价值。
📄 摘要(原文)
Model stitching, connecting early layers of one model (source) to later layers of another (target) via a light stitch layer, has served as a probe of representational compatibility. Prior work finds that models trained on the same dataset remain stitchable (negligible accuracy drop) despite different initializations or objectives. We revisit stitching for Vision Foundation Models (VFMs) that vary in objectives, data, and modality mix (e.g., CLIP, DINOv2, SigLIP 2) and ask: Are heterogeneous VFMs stitchable? We introduce a systematic protocol spanning the stitch points, stitch layer families, training losses, and downstream tasks. Three findings emerge. (1) Stitch layer training matters: conventional approaches that match the intermediate features at the stitch point or optimize the task loss end-to-end struggle to retain accuracy, especially at shallow stitch points. (2) With a simple feature-matching loss at the target model's penultimate layer, heterogeneous VFMs become reliably stitchable across vision tasks. (3) For deep stitch points, the stitched model can surpass either constituent model at only a small inference overhead (for the stitch layer). Building on these findings, we further propose the VFM Stitch Tree (VST), which shares early layers across VFMs while retaining their later layers, yielding a controllable accuracy-latency trade-off for multimodal LLMs that often leverage multiple VFMs. Taken together, our study elevates stitching from a diagnostic probe to a practical recipe for integrating complementary VFM strengths and pinpointing where their representations align or diverge.