Second-Order Multi-Level Variance Correction for Modality Competition in Multimodal Models

📄 arXiv: 2605.16165v1 📥 PDF

作者: Yishun Lu, Wes Armour

分类: cs.CV, cs.AI

发布日期: 2026-05-15


💡 一句话要点

提出ML-FOP-SOAP,通过多级方差校正解决多模态模型中的模态竞争问题。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 模态竞争 二阶优化 方差校正 Fisher正交投影 自回归模型 大批量训练

📋 核心要点

  1. 多模态模型训练中,模态竞争导致优化不稳定,限制了大批量训练的扩展性,现有优化器难以有效解决。
  2. 论文提出ML-FOP-SOAP,利用二阶优化和多级方差校正,抑制模态冲突,平衡视觉生成和文本理解。
  3. 实验表明,ML-FOP-SOAP在Janus和Emu3上稳定训练,样本效率提升1.4倍,训练速度提升1.5倍。

📝 摘要(中文)

自回归的next-token训练为图像生成和文本理解提供了一个统一的框架,但也造成了强烈的模态竞争,导致优化不稳定并限制了大批量扩展。我们发现,诸如AdamW之类的一阶优化器容易受到跨模态梯度异质性的影响,而二阶预处理,特别是SOAP,为多模态对齐提供了更稳定的基础。基于此,我们提出了ML-FOP-SOAP,一个具有多级方差校正的二阶优化框架。我们的Fisher正交投影抑制了方差引起的模态冲突,减少了视觉生成和文本理解之间的权衡。为了使其在大梯度累积下实用,我们引入了一种分层折叠策略,以低微步开销捕获细粒度方差。在Janus和Emu3上的实验表明,在所有模态上都获得了持续的收益,并且在批量大小为8192时训练稳定。与AdamW相比,我们的方法将样本效率提高了高达1.4倍,并将实际训练时间加速了高达1.5倍,为扩展多模态基础模型提供了一个强大的优化器。

🔬 方法详解

问题定义:论文旨在解决多模态模型训练中由于模态竞争导致的优化不稳定问题。现有的一阶优化器(如AdamW)容易受到跨模态梯度异质性的影响,导致训练过程中的模态冲突,使得模型难以同时学习不同模态的知识,最终影响模型的性能和泛化能力。

核心思路:论文的核心思路是利用二阶优化方法(特别是SOAP)来提供更稳定的优化基础,并通过多级方差校正来抑制模态冲突。SOAP通过Fisher信息矩阵的逆来预处理梯度,从而更好地适应模型的局部几何结构,提高优化效率和稳定性。多级方差校正则通过抑制方差引起的模态冲突,减少视觉生成和文本理解之间的权衡。

技术框架:ML-FOP-SOAP框架主要包含两个关键部分:Fisher正交投影(FOP)和多级方差校正。FOP用于抑制方差引起的模态冲突,而多级方差校正则通过分层折叠策略来捕获细粒度的方差信息,从而更有效地抑制模态冲突。整个框架在训练过程中,首先计算梯度,然后进行Fisher正交投影,接着进行多级方差校正,最后更新模型参数。

关键创新:论文的关键创新在于提出了ML-FOP-SOAP,一个结合了二阶优化和多级方差校正的优化框架。与现有方法相比,ML-FOP-SOAP能够更有效地抑制模态冲突,提高多模态模型的训练稳定性和性能。此外,论文还提出了一种分层折叠策略,使得多级方差校正能够在大梯度累积下实用。

关键设计:论文的关键设计包括:1) 使用SOAP作为二阶优化器,利用Fisher信息矩阵的逆来预处理梯度;2) 提出Fisher正交投影,用于抑制方差引起的模态冲突;3) 引入分层折叠策略,以低微步开销捕获细粒度方差。具体来说,分层折叠策略将梯度累积过程分为多个层级,每个层级计算一次方差,从而更准确地估计方差信息。损失函数方面,仍然采用标准的自回归next-token预测损失。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,ML-FOP-SOAP在Janus和Emu3数据集上取得了显著的性能提升。与AdamW相比,ML-FOP-SOAP将样本效率提高了高达1.4倍,并将实际训练时间加速了高达1.5倍。此外,ML-FOP-SOAP还能够稳定地训练批量大小为8192的模型,表明其具有良好的可扩展性。

🎯 应用场景

该研究成果可广泛应用于多模态基础模型的训练,例如图像-文本生成、视频理解等领域。通过提高训练的稳定性和效率,可以加速多模态模型的开发和部署,并提升其在各种实际应用中的性能,例如智能客服、内容创作、自动驾驶等。

📄 摘要(原文)

Autoregressive next-token training offers a unified formulation for image generation and text understanding, but it also creates strong modality competition that destabilizes optimization and limits large-batch scaling. We show that first-order optimizers such as AdamW are vulnerable to cross-modality gradient heterogeneity, while second-order preconditioning, particularly SOAP, provides a more stable basis for multimodal alignment. Building on this insight, we propose \emph{ML-FOP-SOAP}, a second-order optimization framework with Multi-Level Variance Correction. Our Fisher-Orthogonal Projection suppresses variance-induced modality conflicts, reducing the trade-off between visual generation and textual understanding. To make this practical under large gradient accumulation, we introduce a hierarchical folding strategy that captures fine-grained variance with low micro-step overhead. Experiments on Janus and Emu3 show consistent gains across both modalities and stable training at batch size 8192. Compared with AdamW, our method improves sample efficiency by up to $1.4\times$ and accelerates wall-clock training by up to $1.5\times$, offering a robust optimizer for scaling multimodal foundation models.