IAA: Inner-Adaptor Architecture Empowers Frozen Large Language Model with Multimodal Capabilities

📄 arXiv: 2408.12902v2 📥 PDF

作者: Bin Wang, Chunyu Xie, Dawei Leng, Yuhui Yin

分类: cs.AI, cs.CL, cs.LG

发布日期: 2024-08-23 (更新: 2025-04-15)

备注: AAAI 2025

🔗 代码/项目: GITHUB


💡 一句话要点

提出Inner-Adaptor架构IAA,赋予冻结LLM多模态能力,避免NLP性能下降

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 视觉语言理解 冻结语言模型 适配器架构 Inner-Adaptor 视觉问答 图像描述

📋 核心要点

  1. 现有MLLM微调方法解冻LLM易导致NLP能力下降,冻结LLM效果不佳。
  2. 提出IAA架构,在冻结LLM内部不同深度插入多模态适配器,实现多模态能力。
  3. 实验表明,IAA在小规模数据集上优于现有冻结LLM方法,且不损失NLP性能。

📝 摘要(中文)

在多模态大语言模型(MLLM)领域,常见方法通常涉及在训练期间解冻语言模型,以促进深刻的视觉理解。然而,使用视觉-语言数据对这些模型进行微调通常会导致其自然语言处理(NLP)能力的降低。为了避免这种性能下降,一个直接的解决方案是在开发多模态能力的同时冻结语言模型。不幸的是,先前的工作没有获得令人满意的结果。在冻结语言模型的策略基础上,我们进行了彻底的结构探索,并引入了Inner-Adaptor架构(IAA)。具体来说,该架构在大型语言模型中不同深度处结合了多个多模态适配器,以促进与固有面向文本的Transformer层的直接交互,从而使冻结的语言模型能够获得多模态能力。与之前需要大规模对齐数据的冻结语言模型的方法不同,我们提出的架构能够在小规模数据集上实现卓越的性能。我们进行了广泛的实验,以提高MLLM的通用多模态能力和视觉基础能力。我们的方法在各种视觉-语言基准测试中显著优于先前的最先进方法,而不会牺牲NLP任务的性能。

🔬 方法详解

问题定义:论文旨在解决多模态大语言模型(MLLM)在训练过程中,为了获得视觉理解能力而微调语言模型时,导致其原有的自然语言处理(NLP)能力下降的问题。现有方法要么解冻语言模型进行微调,导致NLP性能下降;要么冻结语言模型,但多模态能力提升有限,需要大量对齐数据。

核心思路:论文的核心思路是在冻结语言模型的前提下,通过在语言模型内部不同深度插入多模态适配器(Inner-Adaptor),使视觉信息能够更有效地与语言模型的Transformer层进行交互,从而赋予冻结的语言模型多模态能力,同时避免NLP性能的下降。这样设计的目的是为了在不改变预训练语言模型参数的情况下,通过可训练的适配器来学习视觉-语言的对齐关系。

技术框架:IAA的整体架构是在冻结的大型语言模型内部,在多个Transformer层的不同深度位置插入多模态适配器。这些适配器接收视觉特征作为输入,并将其与Transformer层的中间表示进行融合。整个框架包括视觉编码器(提取视觉特征)、多模态适配器(将视觉特征融入语言模型)和冻结的语言模型。训练过程中,只更新多模态适配器的参数,语言模型的参数保持不变。

关键创新:论文最重要的技术创新点是Inner-Adaptor架构,即在冻结的语言模型内部不同深度插入多模态适配器。与以往方法不同,IAA不是简单地在语言模型的输入或输出端添加适配器,而是深入到模型的内部,使视觉信息能够更直接地影响语言模型的中间表示,从而更有效地学习视觉-语言的对齐关系。这种内部适配器的设计使得模型能够在小规模数据集上取得更好的性能。

关键设计:IAA的关键设计包括适配器的数量、位置和结构。适配器的数量和位置的选择需要根据具体的语言模型和任务进行调整,以达到最佳的性能。适配器的结构可以采用简单的线性层或更复杂的Transformer结构。损失函数通常包括视觉-语言对齐损失和语言模型自身的损失,以保证模型在学习多模态能力的同时,不损失原有的NLP能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,IAA在多个视觉-语言基准测试中显著优于之前的state-of-the-art方法,例如在VQA任务上取得了X%的提升,在Image Captioning任务上取得了Y%的提升。更重要的是,IAA在提升多模态能力的同时,没有牺牲语言模型的NLP性能,证明了该方法的有效性。

🎯 应用场景

该研究成果可广泛应用于需要多模态理解的场景,例如图像/视频描述生成、视觉问答、视觉对话等。通过冻结LLM并使用IAA架构,可以快速构建具备多模态能力的模型,并避免NLP性能下降,具有重要的实际应用价值和商业前景。未来可进一步探索更高效的适配器结构和训练方法,提升多模态模型的性能和泛化能力。

📄 摘要(原文)

In the field of multimodal large language models (MLLMs), common methods typically involve unfreezing the language model during training to foster profound visual understanding. However, the fine-tuning of such models with vision-language data often leads to a diminution of their natural language processing (NLP) capabilities. To avoid this performance degradation, a straightforward solution is to freeze the language model while developing multimodal competencies. Unfortunately, previous works have not attained satisfactory outcomes. Building on the strategy of freezing the language model, we conduct thorough structural exploration and introduce the Inner-Adaptor Architecture (IAA). Specifically, the architecture incorporates multiple multimodal adaptors at varying depths within the large language model to facilitate direct interaction with the inherently text-oriented transformer layers, thereby enabling the frozen language model to acquire multimodal capabilities. Unlike previous approaches of freezing language models that require large-scale aligned data, our proposed architecture is able to achieve superior performance on small-scale datasets. We conduct extensive experiments to improve the general multimodal capabilities and visual grounding abilities of the MLLM. Our approach remarkably outperforms previous state-of-the-art methods across various vision-language benchmarks without sacrificing performance on NLP tasks. Code and models are available at https://github.com/360CVGroup/Inner-Adaptor-Architecture.