Wings: Learning Multimodal LLMs without Text-only Forgetting
作者: Yi-Kai Zhang, Shiyin Lu, Yang Li, Yanqing Ma, Qing-Guo Chen, Zhao Xu, Weihua Luo, Kaifu Zhang, De-Chuan Zhan, Han-Jia Ye
分类: cs.CL, cs.AI, cs.LG
发布日期: 2024-06-05
💡 一句话要点
Wings:一种解决多模态LLM中文本遗忘问题的新型架构
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态学习 大型语言模型 文本遗忘 注意力机制 视觉问答
📋 核心要点
- 多模态LLM在微调后会遗忘纯文本指令,这是现有方法的主要挑战。
- Wings通过引入互补的视觉和文本学习器,补偿注意力转移,从而解决文本遗忘问题。
- 实验表明,Wings在文本和视觉问答任务中均优于同等规模的MLLM,并在IIT基准上表现出色。
📝 摘要(中文)
多模态大型语言模型(MLLM)通常以预训练的LLM为基础,首先将图像与文本对齐,然后在多模态混合输入上进行微调。然而,MLLM会灾难性地遗忘仅文本指令,这些指令不包含图像,并且可以在初始LLM中解决。本文提出了Wings,一种新型MLLM,它在纯文本对话和多模态理解方面表现出色。通过分析MLLM在多模态指令中的注意力,发现纯文本遗忘与从图像前文本到图像后文本的注意力转移有关。基于此,我们构建了额外的模块,作为增强学习器来补偿注意力转移。互补的视觉和文本学习器,像两侧的“翅膀”,在每一层的注意力块内并行连接。最初,图像和文本输入与视觉学习器对齐,视觉学习器与主注意力一起运行,平衡对视觉元素的关注。文本学习器随后与基于注意力的路由协同集成,以混合视觉和文本学习器的输出。我们设计了低秩残差注意力(LoRRA)来保证学习器的高效率。实验结果表明,Wings在纯文本和视觉问答任务中均优于同等规模的MLLM。在一个新构建的交错图像-文本(IIT)基准上,Wings在从富文本到富多模态的问答任务中表现出卓越的性能。
🔬 方法详解
问题定义:多模态大型语言模型(MLLM)在经过图像-文本对齐和多模态微调后,会显著降低其在纯文本任务上的性能,即出现“文本遗忘”现象。现有的MLLM方法在优化多模态能力时,往往忽略了对纯文本能力的保持,导致模型在处理不包含图像的文本指令时表现不佳。
核心思路:Wings的核心思路是通过引入额外的视觉和文本学习器,来补偿在多模态指令中出现的注意力转移现象。具体来说,模型观察到注意力从图像前的文本转移到图像后的文本,导致模型对纯文本指令的理解能力下降。因此,Wings通过并行的视觉和文本学习器,在训练过程中保持对文本信息的关注,从而缓解文本遗忘问题。
技术框架:Wings的整体架构是在Transformer的每一层注意力块中,并行添加视觉和文本学习器。最初,图像和文本输入与视觉学习器对齐,视觉学习器与主注意力机制一起运行,以平衡对视觉元素的关注。随后,文本学习器与基于注意力的路由机制协同集成,将视觉和文本学习器的输出进行融合。这种并行结构使得模型能够在学习多模态信息的同时,保持对纯文本信息的理解能力。
关键创新:Wings的关键创新在于其并行的视觉和文本学习器结构,以及基于注意力的路由机制。这种结构允许模型在学习多模态信息的同时,保持对纯文本信息的关注,从而有效地缓解了文本遗忘问题。此外,低秩残差注意力(LoRRA)的使用保证了学习器的高效率。
关键设计:为了保证效率,Wings采用了低秩残差注意力(LoRRA)。LoRRA通过低秩分解来减少参数量,从而降低计算成本。此外,基于注意力的路由机制用于融合视觉和文本学习器的输出,该机制根据输入的重要性动态地调整视觉和文本信息的权重。具体的损失函数和训练策略细节未在摘要中详细说明,属于未知信息。
🖼️ 关键图片
📊 实验亮点
Wings在纯文本和视觉问答任务中均优于同等规模的MLLM。在自建的交错图像-文本(IIT)基准测试中,Wings在从富文本到富多模态的问答任务中表现出卓越的性能,证明了其在处理复杂多模态场景下的优越性。具体的性能提升数据未在摘要中给出,属于未知信息。
🎯 应用场景
Wings架构可以应用于各种需要同时处理文本和图像信息的场景,例如智能客服、多模态搜索、视觉辅助对话等。该研究成果有助于提升多模态LLM在实际应用中的可靠性和用户体验,使其能够更好地理解和响应用户的指令,无论指令中是否包含图像信息。未来,该技术有望推动多模态人工智能的发展,使其在更广泛的领域发挥作用。
📄 摘要(原文)
Multimodal large language models (MLLMs), initiated with a trained LLM, first align images with text and then fine-tune on multimodal mixed inputs. However, the MLLM catastrophically forgets the text-only instructions, which do not include images and can be addressed within the initial LLM. In this paper, we present Wings, a novel MLLM that excels in both text-only dialogues and multimodal comprehension. Analyzing MLLM attention in multimodal instructions reveals that text-only forgetting is related to the attention shifts from pre-image to post-image text. From that, we construct extra modules that act as the boosted learner to compensate for the attention shift. The complementary visual and textual learners, like "wings" on either side, are connected in parallel within each layer's attention block. Initially, image and text inputs are aligned with visual learners operating alongside the main attention, balancing focus on visual elements. Textual learners are later collaboratively integrated with attention-based routing to blend the outputs of the visual and textual learners. We design the Low-Rank Residual Attention (LoRRA) to guarantee high efficiency for learners. Our experimental results demonstrate that Wings outperforms equally-scaled MLLMs in both text-only and visual question-answering tasks. On a newly constructed Interleaved Image-Text (IIT) benchmark, Wings exhibits superior performance from text-only-rich to multimodal-rich question-answering tasks.