LinguDistill: Recovering Linguistic Ability in Vision- Language Models via Selective Cross-Modal Distillation
作者: Patrick Amadeus Irawan, Erland Hilman Fuadi, Shanu Kumar, Alham Fikri Aji, Yova Kementchedjhieva
分类: cs.CV, cs.CL
发布日期: 2026-04-07
💡 一句话要点
LinguDistill:通过选择性跨模态蒸馏恢复视觉语言模型中的语言能力
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉语言模型 知识蒸馏 语言能力恢复 跨模态学习 无适配器 KV-cache共享 多模态融合
📋 核心要点
- 视觉语言模型(VLM)在多模态适配后,其固有的语言能力会下降,现有方法通常通过增加额外模块来解决,导致模型复杂性增加。
- LinguDistill通过知识蒸馏,利用原始冻结的语言模型作为教师,选择性地恢复VLM的语言能力,无需引入额外的适配器模块。
- 实验表明,LinguDistill能够恢复约10%的语言和知识基准性能损失,同时保持视觉任务的性能,实现了高效的语言能力恢复。
📝 摘要(中文)
将预训练语言模型(LMs)适配到视觉语言模型(VLMs)中,由于多模态适配过程中引入的表征偏移和跨模态干扰,可能会降低其原生的语言能力。即使使用标准目标函数进行特定任务的微调,这种损失也很难恢复。以往的恢复方法通常引入额外的模块作为中间对齐层,以维持或隔离特定模态的子空间,这增加了架构复杂性,增加了推理时的参数,并限制了模型和设置的灵活性。我们提出了LinguDistill,一种无适配器的蒸馏方法,它利用原始冻结的LM作为教师来恢复语言能力。我们通过引入层级的KV-cache共享来克服视觉条件下的教师监督的关键挑战,这使得教师能够接触到学生的多模态表征,而无需修改任何模型的架构。然后,我们选择性地在语言密集型数据上提炼教师强大的语言信号,以恢复语言能力,同时保持学生在多模态任务上的视觉基础。因此,LinguDistill恢复了在语言和知识基准上损失的约10%的性能,同时保持了在视觉繁重任务上的可比性能。我们的研究结果表明,可以在没有额外模块的情况下恢复语言能力,为多模态模型中特定模态的退化提供了一种高效且实用的解决方案。
🔬 方法详解
问题定义:视觉语言模型(VLM)在融合视觉信息后,往往会损失其原有的语言能力,导致在纯语言任务上的表现下降。现有方法通常通过引入额外的适配器模块或复杂的训练策略来缓解这一问题,但这些方法增加了模型的复杂性和计算成本,限制了其在资源受限场景下的应用。
核心思路:LinguDistill的核心思路是利用知识蒸馏,将预训练的、具有强大语言能力的原始语言模型(LM)作为教师模型,指导视觉语言模型(VLM)学生模型恢复其损失的语言能力。通过选择性地在语言密集型数据上进行蒸馏,可以有效地将教师模型的语言知识迁移到学生模型,同时避免过度干扰学生模型在视觉任务上的表现。
技术框架:LinguDistill的整体框架包括一个冻结的教师LM和一个VLM学生模型。关键在于引入了层级的KV-cache共享机制,允许教师模型访问学生模型的多模态表征,从而实现视觉条件下的教师监督。具体流程如下:1) 学生模型接收视觉和语言输入,生成多模态表征;2) 通过KV-cache共享,教师模型可以访问学生模型的多模态表征;3) 教师模型基于共享的表征生成语言输出;4) 使用蒸馏损失函数,使学生模型的语言输出尽可能接近教师模型的输出,从而恢复语言能力。
关键创新:LinguDistill最重要的创新在于其无适配器的蒸馏方法和层级的KV-cache共享机制。与现有方法相比,LinguDistill无需引入额外的模块,避免了增加模型复杂性和计算成本。层级的KV-cache共享机制使得教师模型能够在视觉信息的引导下进行监督,从而实现更有效的语言知识迁移。
关键设计:LinguDistill的关键设计包括:1) 层级的KV-cache共享:教师模型和学生模型共享Transformer层的Key和Value缓存,使得教师模型能够感知学生模型的多模态表征。2) 选择性蒸馏:只在语言密集型数据上进行蒸馏,避免过度干扰学生模型在视觉任务上的表现。3) 蒸馏损失函数:使用交叉熵损失函数,衡量学生模型和教师模型在语言输出上的差异。4) 冻结教师模型:保持教师模型的参数不变,确保其强大的语言能力不会受到干扰。
🖼️ 关键图片
📊 实验亮点
实验结果表明,LinguDistill能够有效恢复VLM的语言能力。在语言和知识基准测试中,LinguDistill恢复了约10%的性能损失,同时保持了在视觉繁重任务上的可比性能。例如,在某些语言理解任务上,LinguDistill的性能提升显著,接近甚至超过了原始语言模型的水平。这些结果证明了LinguDistill在恢复VLM语言能力方面的有效性和优越性。
🎯 应用场景
LinguDistill可应用于各种视觉语言任务,例如图像描述、视觉问答和视觉推理。该方法能够有效提升VLM在语言理解和生成方面的能力,使其在需要高度语言智能的应用场景中表现更佳。此外,LinguDistill的无适配器设计使其易于部署和集成到现有的VLM架构中,具有广泛的应用前景。
📄 摘要(原文)
Adapting pretrained language models (LMs) into vision-language models (VLMs) can degrade their native linguistic capability due to representation shift and cross-modal interference introduced during multimodal adaptation. Such loss is difficult to recover, even with targeted task-specific fine-tuning using standard objectives. Prior recovery approaches typically introduce additional modules that act as intermediate alignment layers to maintain or isolate modality-specific subspaces, which increases architectural complexity, adds parameters at inference time, and limits flexibility across models and settings. We propose LinguDistill, an adapter-free distillation method that restores linguistic capability by utilizing the original frozen LM as a teacher. We overcome the key challenge of enabling vision-conditioned teacher supervision by introducing layer-wise KV-cache sharing, which exposes the teacher to the student's multimodal representations without modifying the architecture of either model. We then selectively distill the teacher's strong linguistic signal on language-intensive data to recover language capability, while preserving the student's visual grounding on multimodal tasks. As a result, LinguDistill recovers $\sim$10% of the performance lost on language and knowledge benchmarks, while maintaining comparable performance on vision-heavy tasks. Our findings demonstrate that linguistic capability can be recovered without additional modules, providing an efficient and practical solution to modality-specific degradation in multimodal models.