LMFusion: Adapting Pretrained Language Models for Multimodal Generation

作者: Weijia Shi, Xiaochuang Han, Chunting Zhou, Weixin Liang, Xi Victoria Lin, Luke Zettlemoyer, Lili Yu

分类: cs.CL, cs.AI, cs.CV, cs.LG

发布日期: 2024-12-19 (更新: 2025-02-05)

备注: Name change: LlamaFusion to LMFusion

💡 一句话要点

LMFusion：通过适配预训练语言模型实现多模态生成

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态生成 预训练语言模型 视觉语言模型 扩散模型 高效训练

📋 核心要点

现有方法从头预训练多模态模型成本高昂，且难以充分利用已有的纯文本LLM的强大语言能力。
LMFusion通过冻结LLM的文本模块，并添加可训练的图像处理模块，实现高效的多模态生成能力。
实验表明，LMFusion在保持语言能力的同时，显著提升了图像理解和生成能力，且计算成本更低。

📝 摘要（中文）

LMFusion是一个框架，旨在赋予预训练的纯文本大型语言模型（LLM）多模态生成能力，使其能够理解和生成任意序列的文本和图像。LMFusion利用现有Llama-3的权重进行自回归文本处理，同时引入额外的并行Transformer模块进行扩散图像处理。在训练过程中，来自每种模态的数据被路由到其专用模块：模态特定的前馈层、查询-键-值投影和归一化层独立处理每种模态，而共享的自注意力层允许文本和图像特征之间的交互。通过冻结文本特定模块并仅训练图像特定模块，LMFusion保留了纯文本LLM的语言能力，同时发展了强大的视觉理解和生成能力。实验表明，与从头开始预训练多模态生成模型的方法相比，LMFusion仅使用50%的FLOPs，图像理解能力提高了20%，图像生成能力提高了3.6%，同时保持了Llama-3的语言能力。该框架还可以适配现有的视觉-语言模型，使其具备多模态生成能力。总而言之，该框架不仅利用了现有对纯文本LLM的计算投资，还实现了语言和视觉能力的并行发展，为高效的多模态模型开发提供了一个有希望的方向。

🔬 方法详解

问题定义：论文旨在解决如何高效地将预训练的纯文本大型语言模型（LLM）扩展到多模态生成领域的问题。现有方法通常需要从头开始训练多模态模型，这不仅计算成本高昂，而且无法充分利用已有的在纯文本LLM上的投资和积累的知识。

核心思路：LMFusion的核心思路是利用现有的预训练LLM（如Llama-3）的强大语言能力，并在此基础上添加专门用于处理图像的模块。通过冻结LLM的文本处理部分，只训练图像处理模块，可以避免破坏LLM的语言能力，并实现高效的多模态融合。

技术框架：LMFusion的整体架构包含两个主要分支：一个用于处理文本，另一个用于处理图像。文本分支利用预训练的LLM（如Llama-3）的现有权重进行自回归文本处理。图像分支则引入额外的Transformer模块，用于处理图像的扩散过程。这两个分支通过共享的自注意力层进行交互，允许文本和图像特征之间的融合。具体来说，模态特定的前馈层、查询-键-值投影和归一化层独立处理每种模态，而共享的自注意力层则促进跨模态的交互。

关键创新：LMFusion最重要的创新点在于其高效的多模态融合策略。通过冻结预训练LLM的文本处理部分，并只训练图像处理模块，LMFusion避免了从头开始训练多模态模型的需要，从而大大降低了计算成本。此外，LMFusion的设计允许语言和视觉能力的并行发展，为未来的多模态模型开发提供了一个灵活的框架。

关键设计：LMFusion的关键设计包括：1) 冻结预训练LLM的文本处理模块，以保留其语言能力；2) 引入额外的Transformer模块来处理图像，并使用扩散模型进行图像生成；3) 使用共享的自注意力层来实现文本和图像特征之间的交互；4) 采用模态特定的前馈层、查询-键-值投影和归一化层来独立处理每种模态。

🖼️ 关键图片

📊 实验亮点

LMFusion在实验中表现出色，仅使用50%的FLOPs，图像理解能力提高了20%，图像生成能力提高了3.6%，同时保持了Llama-3的语言能力。这些结果表明，LMFusion是一种高效且有效的多模态融合方法，能够充分利用预训练LLM的优势，并显著提升视觉理解和生成能力。

🎯 应用场景

LMFusion具有广泛的应用前景，包括但不限于：多模态对话系统、图像描述生成、视觉故事讲述、以及基于图像的文本编辑等。该研究能够降低多模态模型开发的成本，加速相关技术的落地，并推动人机交互方式的革新。未来，LMFusion有望应用于教育、娱乐、医疗等多个领域，提升用户体验和工作效率。

📄 摘要（原文）

We present LMFusion, a framework for empowering pretrained text-only large language models (LLMs) with multimodal generative capabilities, enabling them to understand and generate both text and images in arbitrary sequences. LMFusion leverages existing Llama-3's weights for processing texts autoregressively while introducing additional and parallel transformer modules for processing images with diffusion. During training, the data from each modality is routed to its dedicated modules: modality-specific feedforward layers, query-key-value projections, and normalization layers process each modality independently, while the shared self-attention layers allow interactions across text and image features. By freezing the text-specific modules and only training the image-specific modules, LMFusion preserves the language capabilities of text-only LLMs while developing strong visual understanding and generation abilities. Compared to methods that pretrain multimodal generative models from scratch, our experiments demonstrate that, LMFusion improves image understanding by 20% and image generation by 3.6% using only 50% of the FLOPs while maintaining Llama-3's language capabilities. We also demonstrate that this framework can adapt existing vision-language models with multimodal generation ability. Overall, this framework not only leverages existing computational investments in text-only LLMs but also enables the parallel development of language and vision capabilities, presenting a promising direction for efficient multimodal model development.

LMFusion: Adapting Pretrained Language Models for Multimodal Generation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理