DiM\textsuperscript{3}: Bridging Multilingual and Multimodal Models via Direction- and Magnitude-Aware Merging

📄 arXiv: 2605.12960v1 📥 PDF

作者: Zijing Wang, Mingyang Wang, Ercong Nie, Yongkang Liu, Shi Feng, Mengjie Zhao, Daling Wang, Xiaocui Yang, Hinrich Schütze

分类: cs.CL

发布日期: 2026-05-13

🔗 代码/项目: GITHUB


💡 一句话要点

提出DiM³,通过方向和幅度感知的融合方法,桥接多语言和多模态模型。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多语言模型 多模态模型 模型融合 知识迁移 视觉语言理解

📋 核心要点

  1. 现有方法扩展多模态模型到多语言时,需要大量多语言多模态数据和重复训练,成本高昂。
  2. DiM³通过在共享语言模型骨干中融合多语言和多模态更新,无需训练即可注入多语言能力。
  3. 实验表明,DiM³在多语言任务上显著优于现有融合方法,并保持了原有多模态能力。

📝 摘要(中文)

为了实现更通用和类人的智能,大型语言模型应无缝集成多语言和多模态能力。然而,将现有的多模态模型扩展到多种语言通常需要昂贵的多语言多模态数据构建和重复的端到端再训练。本文研究了一种无需训练的替代方案:通过组合共享语言模型骨干中的残差更新,将多语言能力注入到现有的多模态模型中。关键挑战在于,多语言和多模态更新是异构的,反映了共享模型中不同的功能角色。为了解决这个问题,我们提出了方向和幅度感知的多语言多模态融合(DiM³),它在每个参数维度上选择性地组合这两个更新,同时保留原始的视觉编码器和多模态投影器。在基于LLaVA和Qwen的骨干网络上,对涵盖57种语言的纯文本和视觉语言设置中的多语言基准进行的实验表明,DiM³始终优于现有的融合基线,显著提高了原始多模态模型的多语言性能,并且在很大程度上保留了一般多模态能力的同时,与专门的多语言多模态微调相比具有竞争力。我们进一步表明,DiM³可以直接应用于已经训练好的多语言多模态模型,并且仍然可以产生额外的收益。进一步的可解释性分析表明,DiM³主要重塑了中间层的语义表示,在纯文本和多模态输入下都加强了跨语言对齐,同时保留了更高层的任务敏感结构。

🔬 方法详解

问题定义:论文旨在解决如何高效地将多语言能力融入已有的多模态模型中,避免耗时耗力的数据收集和模型重训练。现有方法要么需要大量多语言多模态数据进行端到端训练,要么效果不佳,无法充分利用已有的多模态知识。

核心思路:论文的核心思路是通过融合多语言和多模态模型的参数更新来实现知识迁移。关键在于,多语言和多模态更新在模型中扮演不同的角色,简单地叠加会导致性能下降。因此,需要一种选择性的融合机制,能够区分并保留各自的优势。

技术框架:DiM³的核心框架是在共享的语言模型骨干上,对多语言模型和多模态模型的参数更新进行融合。具体流程如下:1) 首先,分别训练一个多模态模型和一个多语言模型。2) 然后,计算两个模型的参数更新量(即模型参数的差值)。3) 接着,使用DiM³方法,根据方向和幅度信息,选择性地融合这两个更新量。4) 最后,将融合后的更新量应用到原始的多模态模型上,得到一个同时具备多语言和多模态能力的新模型。

关键创新:DiM³的关键创新在于提出了方向和幅度感知的融合机制。它考虑到多语言和多模态更新在参数空间中的方向和幅度可能不同,因此不是简单地将它们加权平均,而是根据每个参数维度上的方向一致性和幅度大小,来决定如何融合。具体来说,如果两个更新在某个维度上的方向一致,则更倾向于融合;如果某个更新的幅度较大,则更倾向于保留该更新。

关键设计:DiM³的关键设计包括:1) 使用余弦相似度来衡量两个更新在每个维度上的方向一致性。2) 使用参数更新的L2范数来衡量幅度大小。3) 使用一个可学习的权重参数来控制多语言和多模态更新的融合比例。4) 整个融合过程是无训练的,不需要额外的训练数据或计算资源。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DiM³在多个多语言基准测试中取得了显著的性能提升。例如,在文本翻译任务中,DiM³优于现有的融合基线,并且在某些情况下可以与专门的多语言微调模型相媲美。在视觉语言任务中,DiM³也表现出优异的性能,能够在保持原有多模态能力的同时,显著提高多语言理解能力。

🎯 应用场景

DiM³可应用于各种需要多语言和多模态理解的场景,例如跨语言图文检索、多语言视觉问答、多语言机器人交互等。该方法降低了构建多语言多模态模型的成本,加速了相关技术的落地和应用,具有重要的实际价值和广泛的应用前景。

📄 摘要(原文)

Towards more general and human-like intelligence, large language models should seamlessly integrate both multilingual and multimodal capabilities; however, extending an existing multimodal model to many languages typically requires expensive multilingual multimodal data construction and repeated end-to-end retraining. We study a training-free alternative: injecting multilingual capability into an existing multimodal model by composing residual updates in the shared language model backbone. The key challenge is that multilingual and multimodal updates are heterogeneous, reflecting different functional roles in the shared model. To address this, we propose Direction- and Magnitude-aware Multilingual Multimodal merging (DiM3), which selectively composes the two updates at each parameter dimension while preserving the original vision encoder and multimodal projector. Experiments on multilingual benchmarks in both text-only and vision-language settings, covering 57 languages across LLaVA- and Qwen-based backbones, show that DiM3 consistently outperforms existing merging baselines, substantially improves multilingual performance over the original multimodal model, and remains competitive with dedicated multilingual multimodal fine-tuning while largely retaining general multimodal ability. We further show that DiM3 can be directly applied to already trained multilingual multimodal models and still yield additional gains. Further interpretability analysis shows that DiM3 primarily reshapes intermediate-layer semantic representations, strengthening cross-lingual alignment under both text-only and multimodal inputs while preserving higher-layer task-sensitive structure. Our repository is on https://github.com/wzj1718/DiM3.