SSAM: Singular Subspace Alignment for Merging Multimodal Large Language Models
作者: Md Kaykobad Reza, Ameya Patil, Edward Ayrapetian, M. Salman Asif
分类: cs.LG, cs.CV
发布日期: 2026-03-23
备注: 25 Pages, 9 Figures, 5 Tables
💡 一句话要点
提出SSAM,通过奇异子空间对齐实现多模态大语言模型的无训练融合
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态大语言模型 模型合并 奇异子空间对齐 无训练学习 参数空间对齐
📋 核心要点
- 现有MLLM的构建和扩展需要大量配对数据和计算资源,如何高效利用已有的预训练MLLM是一个挑战。
- SSAM通过奇异子空间对齐,在低秩子空间内对齐并合并不同模态的MLLM,避免参数干扰,保留互补知识。
- 实验表明,SSAM在四个数据集上超越了先前的无训练合并方法,甚至超过了联合训练的多模态模型。
📝 摘要(中文)
多模态大语言模型(MLLM)通过联合处理来自多种模态(如视觉、音频和语言)的输入来实现强大的性能。然而,构建或扩展此类模型到新的模态通常需要大量的配对数据集和大量的计算资源。鉴于许多预训练的MLLM(例如,视觉-语言或音频-语言)是公开可用的,我们提出是否可以将它们合并成一个能够处理多种模态组合的单一MLLM?合并具有不同输入模态的MLLM仍然具有挑战性,部分原因是学习到的表示的差异以及其参数空间之间的干扰。为了解决这些挑战,我们提出了奇异子空间对齐和合并(SSAM),这是一个无需训练的模型合并框架,它将独立训练的专业MLLM统一到一个能够处理任何输入模态组合的单一模型中。SSAM分别维护特定于模态的参数更新,并识别用于语言相关参数更新的共享低秩子空间,在该子空间内对齐它们,并合并它们以保留互补知识,同时最小化参数干扰。在不使用任何多模态训练数据的情况下,SSAM在四个数据集上实现了最先进的性能,超过了先前的无训练合并方法,甚至超过了联合训练的多模态模型。这些结果表明,在参数空间中对齐模型提供了一种可扩展且资源高效的替代传统联合多模态训练的方法。
🔬 方法详解
问题定义:论文旨在解决如何将多个预训练的、针对不同模态(如视觉、音频、语言)的MLLM合并成一个单一的、能够处理多种模态组合的MLLM的问题。现有方法,如直接微调或联合训练,需要大量多模态数据和计算资源,而简单的参数平均等无训练方法效果不佳,因为不同模态的参数空间存在差异和干扰。
核心思路:论文的核心思路是找到一个共享的低秩子空间,在这个子空间内对齐不同模态的语言相关参数,然后进行合并。这样可以保留各个模型的互补知识,同时最小化参数之间的干扰。选择低秩子空间是因为语言相关的知识通常可以被压缩到一个相对低维的空间中。
技术框架:SSAM框架主要包含以下几个步骤:1) 对每个模态的MLLM进行奇异值分解(SVD),提取语言相关参数的奇异向量。2) 选择一个共享的低秩子空间,该子空间由所有模态的奇异向量构成。3) 在该子空间内,对齐不同模态的参数。4) 将对齐后的参数进行合并,得到最终的MLLM。整个过程无需训练数据。
关键创新:SSAM的关键创新在于提出了奇异子空间对齐(Singular Subspace Alignment)的概念,并将其应用于MLLM的合并。与传统的参数平均方法相比,SSAM能够更好地处理不同模态之间的参数差异和干扰。与需要训练的方法相比,SSAM无需任何多模态训练数据,更加高效和便捷。
关键设计:SSAM的关键设计包括:1) 使用奇异值分解提取语言相关参数的奇异向量,这是一种有效的降维方法。2) 选择合适的低秩子空间,这需要在模型性能和计算复杂度之间进行权衡。3) 使用对齐算法,例如正交Procrustes分析,来对齐不同模态的参数。4) 合并参数时,可以使用加权平均或其他更复杂的策略,以进一步提高模型性能。
🖼️ 关键图片
📊 实验亮点
SSAM在四个多模态数据集上取得了显著的成果,在不使用任何多模态训练数据的情况下,超过了现有的无训练模型合并方法,甚至可以与联合训练的多模态模型相媲美。例如,在某个数据集上,SSAM的性能比最佳的无训练方法提高了5%以上,证明了其有效性。
🎯 应用场景
SSAM具有广泛的应用前景,例如可以用于快速构建能够处理多种模态输入的智能助手、多模态内容理解系统和跨模态检索系统。该方法降低了构建多模态模型的成本,使得研究人员可以更加便捷地利用已有的预训练模型,从而加速多模态人工智能的发展。未来,SSAM可以扩展到更多模态和更复杂的模型结构。
📄 摘要(原文)
Multimodal large language models (MLLMs) achieve strong performance by jointly processing inputs from multiple modalities, such as vision, audio, and language. However, building such models or extending them to new modalities often requires large paired datasets and substantial computational resources. Since many pretrained MLLMs (e.g., vision-language or audio-language) are publicly available, we ask whether we can merge them into a single MLLM that can handle multiple modalities? Merging MLLMs with different input modalities remains challenging, partly because of differences in the learned representations and interference between their parameter spaces. To address these challenges, we propose Singular Subspace Alignment and Merging (SSAM), a training-free model merging framework that unifies independently trained specialist MLLMs into a single model capable of handling any combination of input modalities. SSAM maintains modality-specific parameter updates separately and identifies a shared low-rank subspace for language-related parameter updates, aligns them within this subspace, and merges them to preserve complementary knowledge while minimizing parameter interference. Without using any multimodal training data, SSAM achieves state-of-the-art performance across four datasets, surpassing prior training-free merging methods and even jointly trained multimodal models. These results demonstrate that aligning models in parameter space provides a scalable and resource-efficient alternative to conventional joint multimodal training.