LatentUMM: Dual Latent Alignment for Unified Multimodal Models

📄 arXiv: 2605.17766v1 📥 PDF

作者: Yinyi Luo, Wenwen Wang, Hayes Bai, Marios Savvides, Jindong Wang

分类: cs.CV

发布日期: 2026-05-18

🔗 代码/项目: GITHUB


💡 一句话要点

提出LatentUMM,通过双重潜在空间对齐提升统一多模态模型的跨模态一致性。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 统一多模态模型 跨模态一致性 潜在空间对齐 双重潜在对齐 潜在动态稳定

📋 核心要点

  1. 统一多模态模型在理解和生成任务中存在功能不一致性,源于潜在空间映射变换的未对齐。
  2. LatentUMM通过双重潜在对齐(跨模态和容量级别)和潜在动态稳定,显式对齐变换,提升跨模态一致性。
  3. 实验表明,LatentUMM在多种架构下均能有效提升多模态一致性,验证了其有效性。

📝 摘要(中文)

统一多模态模型(UMMs)通过学习共享潜在空间在理解和生成方面都取得了强大的性能,但它们常常表现出这两种能力之间的功能不一致性。我们观察到,这个问题并非源于缺乏共享表示,而是源于映射到潜在空间和从潜在空间映射出来的变换之间缺乏显式对齐。因此,生成和重新编码可能遵循不一致的轨迹,导致模态转换下的语义漂移。在这项工作中,我们提出了LatentUMM,一个构建增强的共享潜在空间以显式对齐这些变换并提高跨模态一致性的框架。LatentUMM包含两个阶段。首先,双重潜在对齐在模态和容量级别上强制一致性:跨模态对齐使用更强的嵌入模型来施加结构化的跨模态语义,而双重容量对齐在生成和重新编码下强制双向一致性。其次,潜在动态稳定通过随机潜在展开和偏好优化来提高鲁棒性,从而偏好更好地保持语义一致性的轨迹。实验表明,LatentUMM在不同的架构中持续提高了多模态一致性。

🔬 方法详解

问题定义:统一多模态模型(UMMs)在跨模态理解和生成任务中表现出色,但其生成能力和理解能力之间存在不一致性。现有方法虽然学习了共享的潜在空间,但忽略了从模态数据映射到潜在空间以及从潜在空间解码回模态数据的变换过程中的对齐问题,导致语义漂移和跨模态转换的不稳定性。

核心思路:LatentUMM的核心思路是通过显式地对齐映射到潜在空间和从潜在空间映射出来的变换,来增强共享潜在空间的表示能力,从而提高跨模态一致性。具体来说,它通过双重潜在对齐和潜在动态稳定两个阶段来实现这一目标。双重潜在对齐保证了在模态和容量两个层面上的一致性,而潜在动态稳定则通过优化潜在空间的轨迹来提高鲁棒性。

技术框架:LatentUMM包含两个主要阶段:1) 双重潜在对齐:包括跨模态对齐和双重容量对齐。跨模态对齐使用更强的嵌入模型来施加结构化的跨模态语义。双重容量对齐在生成和重新编码下强制双向一致性。2) 潜在动态稳定:通过随机潜在展开和偏好优化来提高鲁棒性,从而偏好更好地保持语义一致性的轨迹。整体流程是先进行双重潜在对齐,然后进行潜在动态稳定,最终得到一个更鲁棒且一致的统一多模态模型。

关键创新:LatentUMM的关键创新在于它显式地关注了潜在空间映射变换的对齐问题,并提出了双重潜在对齐和潜在动态稳定两种方法来解决这个问题。与现有方法相比,LatentUMM不仅仅关注共享潜在空间的学习,更关注如何保证在潜在空间中的操作(如生成和重新编码)能够保持语义一致性。

关键设计:在跨模态对齐中,使用了更强的嵌入模型(具体模型类型未知)来学习结构化的跨模态语义。在双重容量对齐中,设计了损失函数来强制生成和重新编码过程中的双向一致性(具体损失函数形式未知)。在潜在动态稳定中,使用了随机潜在展开来探索潜在空间,并使用偏好优化来选择更稳定的轨迹(具体偏好优化方法未知)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

LatentUMM在多个数据集和架构上进行了实验,结果表明其能够持续提高多模态一致性。具体的性能数据和提升幅度在论文中给出(具体数值未知),但总体趋势是LatentUMM优于现有的统一多模态模型。

🎯 应用场景

LatentUMM可应用于各种需要跨模态理解和生成的场景,例如多模态对话系统、图像描述生成、视频内容理解等。通过提高跨模态一致性,可以提升这些应用的用户体验和性能,并为未来的多模态人工智能研究提供新的思路。

📄 摘要(原文)

Unified multimodal models (UMMs) achieve strong performance in both understanding and generation by learning a shared latent space, yet they often exhibit functional inconsistency between these two capabilities. We observe that this issue does not stem from a lack of shared representations, but from the absence of explicit alignment between the transformations that map into and out of the latent space. As a result, generation and re-encoding can follow inconsistent trajectories, leading to semantic drift under modality transitions. In this work, we propose LatentUMM, a framework that constructs an enhanced shared latent space to explicitly align these transformations and improve cross-modal consistency. LatentUMM consists of two stages. First, dual latent alignment enforces consistency at both the modality and capacity levels: cross-modal alignment uses a stronger embedding model to impose structured cross-modal semantics, while dual capacity alignment enforces bidirectional consistency under generation and re-encoding. Second, latent dynamics stabilization improves robustness via stochastic latent rollouts and preference optimization, favoring trajectories that better preserve semantic consistency. Experiments show that LatentUMM consistently improves multimodal consistency across diverse architectures. Code is available at: https://github.com/AIFrontierLab/TorchUMM/tree/main/src/umm/post_training/LatentUMM.