Zero-Shot Vision Encoder Grafting via LLM Surrogates
作者: Kaiyu Yue, Vasu Singla, Menglin Jia, John Kirchenbauer, Rifaa Qadri, Zikui Cai, Abhinav Bhatele, Furong Huang, Tom Goldstein
分类: cs.CV
发布日期: 2025-05-28 (更新: 2025-08-02)
备注: ICCV 2025
🔗 代码/项目: GITHUB
💡 一句话要点
通过LLM代理实现视觉编码器的零样本嫁接,降低VLM训练成本。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉语言模型 零样本学习 模型嫁接 代理模型 训练加速 计算效率 LLM 视觉编码器
📋 核心要点
- 现有VLM训练成本高昂,主要瓶颈在于大型语言模型解码器的计算负担。
- 论文提出零样本嫁接方法,先用小型代理LLM训练视觉编码器,再迁移到大型LLM。
- 实验表明,该方法在降低训练成本的同时,性能可与完整训练的VLM媲美。
📝 摘要(中文)
视觉语言模型(VLM)通常将一个中等规模的视觉编码器与一个大型语言模型(LLM)配对,例如Llama-70B,这使得解码器成为训练期间主要的计算负担。为了降低成本,一个有前景的策略是首先使用小型语言模型训练视觉编码器,然后将其转移到大型语言模型。我们构建了小型“代理模型”,通过直接继承大型目标LLM的浅层,这些代理模型与大型目标LLM共享相同的嵌入空间和表示语言。在代理模型上训练的视觉编码器可以直接转移到更大的模型,这个过程我们称之为零样本嫁接——当直接插入到全尺寸目标LLM时,嫁接后的模型对超过了编码器-代理模型对,并且在某些基准测试中,甚至可以与使用目标LLM进行完整解码器训练的模型相媲美。此外,当使用Llama-70B作为解码器时,我们的代理训练方法可将总体VLM训练成本降低约45%。
🔬 方法详解
问题定义:现有视觉语言模型(VLM)的训练成本很高,尤其是在使用大型语言模型(LLM)作为解码器时,解码器的计算量成为主要的瓶颈。直接训练视觉编码器与大型LLM的组合需要大量的计算资源和时间。
核心思路:论文的核心思路是使用一个小型、计算成本较低的“代理模型”来预训练视觉编码器。这个代理模型通过继承大型目标LLM的浅层,从而与目标LLM共享相同的嵌入空间和表示语言。这样,在代理模型上训练好的视觉编码器就可以直接“嫁接”到大型目标LLM上,而无需进行额外的训练。
技术框架:整体框架包含以下几个主要步骤:1) 构建代理LLM:通过复制目标LLM的浅层(例如,前几层Transformer块)来创建一个小型代理LLM。2) 视觉编码器训练:使用代理LLM训练视觉编码器,目标是使视觉编码器的输出与代理LLM的输入嵌入空间对齐。3) 零样本嫁接:将训练好的视觉编码器直接连接到目标LLM,形成完整的VLM。4) 评估:评估嫁接后的VLM在各种视觉语言任务上的性能。
关键创新:最重要的创新点在于“零样本嫁接”的概念。通过构建与目标LLM兼容的代理模型,可以在无需额外训练的情况下,将视觉编码器迁移到大型LLM。这避免了从头开始训练整个VLM的巨大计算成本。
关键设计:代理LLM的关键设计在于其与目标LLM的嵌入空间兼容性。通过直接继承目标LLM的浅层,代理LLM可以确保视觉编码器的输出能够被目标LLM理解。损失函数的设计目标是使视觉编码器的输出尽可能接近代理LLM的输入嵌入。具体的网络结构细节取决于所使用的视觉编码器和LLM的类型。
🖼️ 关键图片
📊 实验亮点
实验结果表明,通过零样本嫁接方法训练的VLM,在某些基准测试中,性能甚至可以与使用目标LLM进行完整解码器训练的模型相媲美。更重要的是,该方法在使用Llama-70B作为解码器时,可以将总体VLM训练成本降低约45%。这表明该方法在降低训练成本的同时,能够保持甚至提升VLM的性能。
🎯 应用场景
该研究成果可广泛应用于各种视觉语言任务,例如图像描述、视觉问答、图像分类等。通过降低VLM的训练成本,可以加速VLM的开发和部署,使其能够应用于资源受限的环境。此外,该方法还可以促进对不同视觉编码器和LLM架构的探索,推动VLM领域的发展。
📄 摘要(原文)
Vision language models (VLMs) typically pair a modestly sized vision encoder with a large language model (LLM), e.g., Llama-70B, making the decoder the primary computational burden during training. To reduce costs, a potential promising strategy is to first train the vision encoder using a small language model before transferring it to the large one. We construct small "surrogate models" that share the same embedding space and representation language as the large target LLM by directly inheriting its shallow layers. Vision encoders trained on the surrogate can then be directly transferred to the larger model, a process we call zero-shot grafting -- when plugged directly into the full-size target LLM, the grafted pair surpasses the encoder-surrogate pair and, on some benchmarks, even performs on par with full decoder training with the target LLM. Furthermore, our surrogate training approach reduces overall VLM training costs by ~45% when using Llama-70B as the decoder. The code is at https://github.com/facebookresearch/zero.