Uni-X: Mitigating Modality Conflict with a Two-End-Separated Architecture for Unified Multimodal Models

📄 arXiv: 2509.24365v2 📥 PDF

作者: Jitai Hao, Hao Liu, Xinyan Xiao, Qiang Huang, Jun Yu

分类: cs.CV, cs.AI

发布日期: 2025-09-29 (更新: 2025-11-29)

🔗 代码/项目: GITHUB


💡 一句话要点

提出Uni-X架构,通过两端分离结构缓解多模态统一模型中的模态冲突问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 统一模型 梯度冲突 Transformer 图像生成 文本理解 视觉理解 模型架构

📋 核心要点

  1. 现有基于共享Transformer的统一多模态模型在训练时存在严重的视觉和文本梯度冲突,尤其是在浅层和深层。
  2. Uni-X采用两端分离、中间共享的X形架构,缓解了模态间的梯度冲突,同时保持了高层语义融合能力。
  3. 实验表明,Uni-X在训练效率上优于现有模型,并且在扩展到3B参数时,性能可与7B模型媲美。

📝 摘要(中文)

统一多模态模型(UMMs)因其架构的简洁性而备受关注,它们通常基于共享的自回归(AR) Transformer。然而,我们发现一个关键限制:当在多模态输入上训练时,模态共享的Transformer会遭受视觉和文本之间严重的梯度冲突,尤其是在浅层和深层。我们追踪到这个问题源于图像和文本的低级统计属性的根本差异,同时注意到冲突在表示变得更抽象和语义对齐的中间层有所减少。为了克服这个挑战,我们提出了Uni-X,一种两端分离、中间共享的架构。Uni-X将其初始层和最终层专用于模态特定的处理,同时在中间层保持共享参数以进行高级语义融合。这种X形设计不仅消除了两端的梯度冲突,而且进一步缓解了共享层中的残余冲突。大量实验验证了Uni-X的有效性。在相同的训练条件下,Uni-X实现了优于强基线的训练效率。当使用更大的训练数据扩展到3B参数时,Uni-X匹配或超过了7B基于AR的UMM,在图像生成方面实现了82的GenEval分数,同时在文本和视觉理解任务中表现出色。这些结果确立了Uni-X作为未来统一多模态建模的参数高效且可扩展的基础。

🔬 方法详解

问题定义:论文旨在解决统一多模态模型(UMMs)中,由于视觉和文本模态的差异性,导致在训练过程中出现的梯度冲突问题。现有方法,如直接使用共享Transformer,无法有效处理这种冲突,导致训练效率低下和模型性能受限。

核心思路:论文的核心思路是采用一种两端分离、中间共享的架构(Uni-X)。这种设计基于观察:浅层和深层更易出现模态冲突,而中间层表示更抽象,冲突较小。因此,Uni-X将浅层和深层设计为模态特定层,用于处理各自模态的特性,而中间层则采用共享参数,用于进行高级语义融合。

技术框架:Uni-X的整体架构呈X形。输入首先通过模态特定的浅层Transformer进行处理,提取模态特定特征。然后,这些特征被送入共享的中间层Transformer进行融合。最后,融合后的特征再通过模态特定的深层Transformer生成最终输出。这种架构允许模型在浅层和深层专注于模态特定信息的处理,同时在中间层进行跨模态的语义融合。

关键创新:Uni-X的关键创新在于其两端分离、中间共享的架构设计。这种设计能够有效地缓解多模态训练中的梯度冲突问题,提高训练效率和模型性能。与传统的共享Transformer架构相比,Uni-X能够更好地处理不同模态之间的差异性,从而实现更有效的多模态融合。

关键设计:Uni-X的关键设计包括:1) 模态特定层和共享层的层数比例,需要根据具体任务和数据集进行调整;2) 损失函数的设计,需要考虑不同模态之间的平衡;3) Transformer的参数设置,如注意力头数、隐藏层维度等,需要根据模型规模进行优化。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Uni-X在相同的训练条件下,训练效率优于强基线模型。当模型扩展到3B参数,并使用更大的训练数据集时,Uni-X的性能可以匹配甚至超过7B参数的自回归UMM模型。在图像生成任务中,Uni-X达到了82的GenEval分数,同时在文本和视觉理解任务中也表现出强大的性能。

🎯 应用场景

Uni-X架构具有广泛的应用前景,可应用于图像生成、文本生成、视觉理解、文本理解等多种多模态任务。其高效的训练和强大的性能使其成为构建下一代统一多模态模型的基础。例如,可以应用于智能客服、自动驾驶、医疗诊断等领域,实现更智能、更高效的人机交互。

📄 摘要(原文)

Unified Multimodal Models (UMMs) built on shared autoregressive (AR) transformers are attractive for their architectural simplicity. However, we identify a critical limitation: when trained on multimodal inputs, modality-shared transformers suffer from severe gradient conflicts between vision and text, particularly in shallow and deep layers. We trace this issue to the fundamentally different low-level statistical properties of images and text, while noting that conflicts diminish in middle layers where representations become more abstract and semantically aligned. To overcome this challenge, we propose Uni-X, a two-end-separated, middle-shared architecture. Uni-X dedicates its initial and final layers to modality-specific processing, while maintaining shared parameters in the middle layers for high-level semantic fusion. This X-shaped design not only eliminates gradient conflicts at both ends but also further alleviates residual conflicts in the shared layers. Extensive experiments validate the effectiveness of Uni-X. Under identical training conditions, Uni-X achieves superior training efficiency compared to strong baselines. When scaled to 3B parameters with larger training data, Uni-X matches or surpasses 7B AR-based UMMs, achieving a GenEval score of 82 for image generation alongside strong performance in text and vision understanding tasks. These results establish Uni-X as a parameter-efficient and scalable foundation for future unified multimodal modeling. Our code is available at https://github.com/CURRENTF/Uni-X