LMFusion: Adapting Pretrained Language Models for Multimodal Generation

📄 arXiv: 2412.15188v4 📥 PDF

作者: Weijia Shi, Xiaochuang Han, Chunting Zhou, Weixin Liang, Xi Victoria Lin, Luke Zettlemoyer, Lili Yu

分类: cs.CL, cs.AI, cs.CV, cs.LG

发布日期: 2024-12-19 (更新: 2025-02-05)

备注: Name change: LlamaFusion to LMFusion


💡 一句话要点

LMFusion:通过适配预训练语言模型实现多模态生成

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态生成 预训练语言模型 视觉语言模型 扩散模型 高效训练

📋 核心要点

  1. 现有方法从头预训练多模态模型成本高昂,且难以充分利用已有的纯文本LLM的强大语言能力。
  2. LMFusion通过冻结LLM的文本模块,并添加可训练的图像处理模块,实现高效的多模态生成能力。
  3. 实验表明,LMFusion在保持语言能力的同时,显著提升了图像理解和生成能力,且计算成本更低。

📝 摘要(中文)

LMFusion是一个框架,旨在赋予预训练的纯文本大型语言模型(LLM)多模态生成能力,使其能够理解和生成任意序列的文本和图像。LMFusion利用现有Llama-3的权重进行自回归文本处理,同时引入额外的并行Transformer模块进行扩散图像处理。在训练过程中,来自每种模态的数据被路由到其专用模块:模态特定的前馈层、查询-键-值投影和归一化层独立处理每种模态,而共享的自注意力层允许文本和图像特征之间的交互。通过冻结文本特定模块并仅训练图像特定模块,LMFusion保留了纯文本LLM的语言能力,同时发展了强大的视觉理解和生成能力。实验表明,与从头开始预训练多模态生成模型的方法相比,LMFusion仅使用50%的FLOPs,图像理解能力提高了20%,图像生成能力提高了3.6%,同时保持了Llama-3的语言能力。该框架还可以适配现有的视觉-语言模型,使其具备多模态生成能力。总而言之,该框架不仅利用了现有对纯文本LLM的计算投资,还实现了语言和视觉能力的并行发展,为高效的多模态模型开发提供了一个有希望的方向。

🔬 方法详解

问题定义:论文旨在解决如何高效地将预训练的纯文本大型语言模型(LLM)扩展到多模态生成领域的问题。现有方法通常需要从头开始训练多模态模型,这不仅计算成本高昂,而且无法充分利用已有的在纯文本LLM上的投资和积累的知识。

核心思路:LMFusion的核心思路是利用现有的预训练LLM(如Llama-3)的强大语言能力,并在此基础上添加专门用于处理图像的模块。通过冻结LLM的文本处理部分,只训练图像处理模块,可以避免破坏LLM的语言能力,并实现高效的多模态融合。

技术框架:LMFusion的整体架构包含两个主要分支:一个用于处理文本,另一个用于处理图像。文本分支利用预训练的LLM(如Llama-3)的现有权重进行自回归文本处理。图像分支则引入额外的Transformer模块,用于处理图像的扩散过程。这两个分支通过共享的自注意力层进行交互,允许文本和图像特征之间的融合。具体来说,模态特定的前馈层、查询-键-值投影和归一化层独立处理每种模态,而共享的自注意力层则促进跨模态的交互。

关键创新:LMFusion最重要的创新点在于其高效的多模态融合策略。通过冻结预训练LLM的文本处理部分,并只训练图像处理模块,LMFusion避免了从头开始训练多模态模型的需要,从而大大降低了计算成本。此外,LMFusion的设计允许语言和视觉能力的并行发展,为未来的多模态模型开发提供了一个灵活的框架。

关键设计:LMFusion的关键设计包括:1) 冻结预训练LLM的文本处理模块,以保留其语言能力;2) 引入额外的Transformer模块来处理图像,并使用扩散模型进行图像生成;3) 使用共享的自注意力层来实现文本和图像特征之间的交互;4) 采用模态特定的前馈层、查询-键-值投影和归一化层来独立处理每种模态。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

LMFusion在实验中表现出色,仅使用50%的FLOPs,图像理解能力提高了20%,图像生成能力提高了3.6%,同时保持了Llama-3的语言能力。这些结果表明,LMFusion是一种高效且有效的多模态融合方法,能够充分利用预训练LLM的优势,并显著提升视觉理解和生成能力。

🎯 应用场景

LMFusion具有广泛的应用前景,包括但不限于:多模态对话系统、图像描述生成、视觉故事讲述、以及基于图像的文本编辑等。该研究能够降低多模态模型开发的成本,加速相关技术的落地,并推动人机交互方式的革新。未来,LMFusion有望应用于教育、娱乐、医疗等多个领域,提升用户体验和工作效率。

📄 摘要(原文)

We present LMFusion, a framework for empowering pretrained text-only large language models (LLMs) with multimodal generative capabilities, enabling them to understand and generate both text and images in arbitrary sequences. LMFusion leverages existing Llama-3's weights for processing texts autoregressively while introducing additional and parallel transformer modules for processing images with diffusion. During training, the data from each modality is routed to its dedicated modules: modality-specific feedforward layers, query-key-value projections, and normalization layers process each modality independently, while the shared self-attention layers allow interactions across text and image features. By freezing the text-specific modules and only training the image-specific modules, LMFusion preserves the language capabilities of text-only LLMs while developing strong visual understanding and generation abilities. Compared to methods that pretrain multimodal generative models from scratch, our experiments demonstrate that, LMFusion improves image understanding by 20% and image generation by 3.6% using only 50% of the FLOPs while maintaining Llama-3's language capabilities. We also demonstrate that this framework can adapt existing vision-language models with multimodal generation ability. Overall, this framework not only leverages existing computational investments in text-only LLMs but also enables the parallel development of language and vision capabilities, presenting a promising direction for efficient multimodal model development.