Anisotropic Modality Align

📄 arXiv: 2605.07825v1 📥 PDF

作者: Xiaomin Yu, Yijiang Li, Yuhui Zhang, Hanzhen Zhao, Yue Yang, Hao Tang, Yue Song, Xiaobin Hu, Chengwei Qin, Shuicheng Yan, Hui Xiong

分类: cs.MM, cs.CV

发布日期: 2026-05-08


💡 一句话要点

提出AnisoAlign框架,通过各向异性几何校正解决多模态表示中的模态鸿沟问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 表示学习 模态鸿沟 几何对齐 各向异性 单模态训练

📋 核心要点

  1. 核心问题:多模态表示空间中存在持续的模态鸿沟,导致不同模态间的表示无法直接互换,限制了单模态数据在多模态训练中的应用。
  2. 方法要点:提出AnisoAlign框架,通过分析模态鸿沟的各向异性残差结构,利用目标模态的几何先验对源模态表示进行有界校正。
  3. 实验效果:该方法在几何诊断任务中表现优异,并显著提升了仅使用文本数据训练多模态大语言模型的效果,验证了其表示对齐的有效性。

📝 摘要(中文)

多模态大语言模型(MLLM)的训练长期受限于高质量配对数据的稀缺。近期研究表明,预训练多模态对比模型的共享表示空间可作为桥梁,实现单模态数据的多模态训练。然而,该范式的核心前提——不同模态的表示是否可可靠互换——尚不明确,主要障碍在于共享空间中持续存在的“模态鸿沟”。本文重新审视了模态鸿沟的几何本质,发现模态表示已具备兼容的支配性语义几何结构。阻碍模态互换的并非简单的全局平移,而是集中在少数支配方向上的各向异性残差结构。基于此,本文提出“各向异性模态鸿沟对齐”原则,即有效的模态对齐应在保留源模态语义结构的同时,与目标模态分布对齐。据此,作者提出了AnisoAlign框架,利用目标模态的内部几何先验对源模态表示进行有界校正,从而构建目标模态的替代表示。实验证实了该方法在几何诊断和纯文本MLLM训练中的有效性,将模态鸿沟从经验观察转化为可纠正的结构化几何现象。

🔬 方法详解

问题定义:论文旨在解决多模态预训练模型中存在的“模态鸿沟”(Modality Gap)问题。现有方法通常假设模态间存在简单的全局偏移,但这种假设忽略了表示空间中复杂的几何结构,导致在利用单模态数据进行多模态训练时,表示转换的可靠性较低。

核心思路:研究发现模态表示已共享兼容的支配性语义几何,真正的障碍是集中在少数支配方向上的各向异性残差。因此,核心思路是“各向异性模态鸿沟对齐”,即在保持源模态语义结构完整性的前提下,通过几何校正使其分布与目标模态对齐。

技术框架:AnisoAlign框架包含两个主要阶段:首先是几何诊断阶段,通过分析模态表示的协方差矩阵识别各向异性残差方向;其次是校正阶段,利用目标模态的内部几何先验,对源模态表示执行有界投影和变换,构建出高质量的替代表示。

关键创新:最重要的创新在于将模态鸿沟重新定义为一种结构化的几何现象,而非简单的平移。通过引入各向异性校正,该方法能够精确地消除特定方向上的偏差,同时避免破坏原始语义结构。

关键设计:该方法采用了基于目标模态分布的几何先验约束,通过有界校正算子(Bounded Correction)确保变换后的表示不会偏离语义流形,从而在不依赖配对数据的情况下实现跨模态表示的有效对齐。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,AnisoAlign在几何诊断任务中能有效量化并消除模态鸿沟。在纯文本MLLM训练实验中,该方法显著优于传统的对齐基线,在多个多模态基准测试上实现了性能提升,证明了通过几何校正构建替代表示的可行性与优越性,为解决数据稀缺问题提供了新视角。

🎯 应用场景

该研究主要应用于多模态大语言模型(MLLM)的训练阶段,特别是在缺乏大规模高质量配对数据的情况下,利用海量单模态数据(如纯文本)提升模型的多模态理解能力。此外,该方法在跨模态检索、零样本学习以及多模态表示学习的几何分析领域具有广泛的应用价值。

📄 摘要(原文)

Training multimodal large language models has long been limited by the scarcity of high-quality paired multimodal data. Recent studies show that the shared representation space of pretrained multimodal contrastive models can serve as a bridge, enabling models to perform multimodal training with unimodal data. However, the key premise of this paradigm remains insufficiently understood: can representations from different modalities be reliably interchanged? The core obstacle lies in the persistent Modality Gap in the shared space. In this work, we revisit the geometric nature of the modality gap. We find that modality representations already share compatible dominant semantic geometry. What truly hinders modality interchangeability is not a simple global shift, but an anisotropic residual structure concentrated along a small number of dominant directions. Based on this finding, we further propose the principle of anisotropic modality gap alignment: effective modality alignment should align with the target-modality distribution while preserving the semantic structure of the source modality. Guided by this principle, we propose an anisotropic geometric correction framework, AnisoAlign, for unpaired modality alignment. This framework leverages the internal geometric prior of the target modality and performs bounded correction on source-modality representations, thereby constructing substitute representations in the target modality. Experiments confirm its benefits in both geometric diagnostics and text-only MLLM training. Overall, this work recasts the modality gap from an empirical observation into a correctable, structured geometric phenomenon and provides a new representation alignment perspective for training multimodal models with unimodal data.