Multi-Modality Expansion and Retention for LLMs through Parameter Merging and Decoupling

📄 arXiv: 2505.17110v1 📥 PDF

作者: Junlin Li, Guodong DU, Jing Li, Sim Kuan Goh, Wenya Wang, Yequan Wang, Fangming Liu, Ho-Kin Tang, Saleh Alharbi, Daojing He, Min Zhang

分类: cs.CL

发布日期: 2025-05-21


💡 一句话要点

提出MMER以解决多模态大语言模型的扩展与保留问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 参数合并 模型解耦 灾难性遗忘 训练无关方法

📋 核心要点

  1. 现有的多模态大语言模型微调方法依赖于资源密集且不灵活的从头训练,导致效率低下。
  2. MMER方法通过参数合并和解耦,重用现有的多模态编码器,实现了有效的多模态扩展。
  3. 实验结果显示,MMER在保留99%原始性能的同时,显著提升了多模态能力,并减轻了灾难性遗忘。

📝 摘要(中文)

在这篇论文中,作者提出了一种名为MMER(多模态扩展与保留)的训练无关方法,旨在通过参数合并和解耦来有效扩展多模态大语言模型(MLLMs)的能力,同时保持其原有性能。MMER重用现有MLLM的多模态编码器,并合并其大语言模型(LLM)参数。通过比较原始和合并后的LLM参数,MMER生成二进制掩码,以近似分离每种模态的LLM参数。这种解耦参数能够独立处理特定模态的输入,从而减少参数冲突并保留原有MLLM的保真度。此外,MMER还通过类似的过程来减轻在新任务上微调的MLLM的灾难性遗忘。大量实验表明,MMER在扩展LLM的多模态能力的同时,保留了99%的原始性能,并显著减轻了灾难性遗忘。

🔬 方法详解

问题定义:现有的多模态大语言模型(MLLMs)在处理模态特定数据时,通常需要从头开始进行资源密集型的微调,这不仅效率低下,还可能导致模型性能下降。

核心思路:论文提出的MMER方法通过重用现有MLLM的多模态编码器,并合并其大语言模型(LLM)参数,避免了从头训练的需求,同时保持了模型的原有性能。

技术框架:MMER的整体架构包括参数合并、生成二进制掩码和解耦处理三个主要模块。首先,合并不同模态的LLM参数,然后生成掩码以分离模态特定参数,最后独立处理不同模态的输入。

关键创新:MMER的主要创新在于其训练无关的多模态扩展方法,通过参数解耦有效减少了参数冲突,保持了模型的保真度,这与传统的微调方法有本质区别。

关键设计:在参数合并过程中,MMER使用二进制掩码来近似分离每种模态的参数设置,确保每个模态的输入能够被独立处理。此外,MMER还设计了针对新任务的微调过程,以减轻灾难性遗忘。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,MMER在多模态能力扩展方面显著优于基线方法,保留了99%的原始性能,并有效减轻了灾难性遗忘,展示了其在实际应用中的巨大潜力。

🎯 应用场景

该研究的潜在应用场景包括自然语言处理、计算机视觉和多模态交互等领域。通过有效扩展多模态大语言模型的能力,MMER可以在多种任务中实现更高的性能,具有广泛的实际价值和未来影响。

📄 摘要(原文)

Fine-tuning Large Language Models (LLMs) with multimodal encoders on modality-specific data expands the modalities that LLMs can handle, leading to the formation of Multimodal LLMs (MLLMs). However, this paradigm heavily relies on resource-intensive and inflexible fine-tuning from scratch with new multimodal data. In this paper, we propose MMER (Multi-modality Expansion and Retention), a training-free approach that integrates existing MLLMs for effective multimodal expansion while retaining their original performance. Specifically, MMER reuses MLLMs' multimodal encoders while merging their LLM parameters. By comparing original and merged LLM parameters, MMER generates binary masks to approximately separate LLM parameters for each modality. These decoupled parameters can independently process modality-specific inputs, reducing parameter conflicts and preserving original MLLMs' fidelity. MMER can also mitigate catastrophic forgetting by applying a similar process to MLLMs fine-tuned on new tasks. Extensive experiments show significant improvements over baselines, proving that MMER effectively expands LLMs' multimodal capabilities while retaining 99% of the original performance, and also markedly mitigates catastrophic forgetting.