UniCom: Unified Multimodal Modeling via Compressed Continuous Semantic Representations

📄 arXiv: 2603.10702v1 📥 PDF

作者: Yaqi Zhao, Wang Lin, Zijian Zhang, Miles Yang, Jingyuan Chen, Wentao Zhang, Zhao Zhong, Liefeng Bo

分类: cs.CV

发布日期: 2026-03-11


💡 一句话要点

UniCom:通过压缩连续语义表示实现统一的多模态建模

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态建模 统一模型 连续语义表示 语义压缩 图像生成 图像编辑 注意力机制

📋 核心要点

  1. 现有统一多模态模型依赖离散视觉token,损失细粒度语义信息,影响视觉理解性能。
  2. UniCom通过压缩连续语义表示,协调多模态理解和生成,避免离散化损失。
  3. 实验表明,UniCom在生成性能上达到SOTA,并在图像编辑中实现卓越的可控性。

📝 摘要(中文)

当前统一多模态模型通常依赖于离散视觉标记器来弥合模态差距。然而,离散化不可避免地会丢弃细粒度的语义信息,导致视觉理解任务的次优性能。相反,直接建模连续语义表示(例如,CLIP,SigLIP)在高维生成建模中带来了重大挑战,导致收敛缓慢和训练不稳定。为了解决这个难题,我们引入了UniCom,一个统一的框架,通过压缩连续表示来协调多模态理解和生成。我们通过实验证明,降低通道维度比空间下采样在重建和生成方面都更有效。因此,我们设计了一个基于注意力的语义压缩器,将密集特征提炼成紧凑的统一表示。此外,我们验证了transfusion架构在收敛性和一致性方面优于基于查询的设计。实验表明,UniCom在统一模型中实现了最先进的生成性能。值得注意的是,通过保留丰富的语义先验,它在图像编辑中提供了卓越的可控性,并且即使不依赖VAE也能保持图像一致性。

🔬 方法详解

问题定义:现有统一多模态模型在处理视觉信息时,通常采用离散的视觉tokenizers。这种离散化过程不可避免地会丢失图像中细粒度的语义信息,从而限制了模型在视觉理解任务中的性能。另一方面,直接使用连续的语义表示(如CLIP或SigLIP)进行建模,虽然保留了更多的语义信息,但在高维生成建模中面临收敛缓慢和训练不稳定的问题。

核心思路:UniCom的核心思路是通过压缩连续的语义表示,在保留关键语义信息的同时,降低表示的维度,从而实现高效且稳定的多模态建模。通过这种方式,UniCom既避免了离散化带来的信息损失,又解决了高维连续表示带来的训练难题。

技术框架:UniCom的整体框架包含以下几个主要模块:首先,使用视觉编码器提取图像的密集特征;然后,通过一个基于注意力机制的语义压缩器,将这些密集特征压缩成一个紧凑的统一表示;最后,使用一个生成器(例如,扩散模型)基于这个统一表示生成图像或其他模态的数据。此外,UniCom还采用了transfusion架构,以提高模型的收敛性和一致性。

关键创新:UniCom最重要的技术创新点在于其语义压缩器,它能够有效地将高维的连续语义表示压缩成低维的统一表示,同时尽可能地保留原始的语义信息。与传统的空间下采样方法相比,UniCom的语义压缩器通过降低通道维度来实现压缩,实验证明这种方法在重建和生成方面都更有效。此外,transfusion架构的应用也提高了模型的训练稳定性和生成质量。

关键设计:UniCom的关键设计包括:1) 基于注意力机制的语义压缩器,其具体结构和参数设置需要根据具体的任务和数据集进行调整;2) transfusion架构的具体实现,包括如何将不同模态的信息融合到一起;3) 损失函数的设计,需要综合考虑重建损失、生成损失以及其他正则化项,以保证模型的训练效果。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

UniCom在图像生成任务上取得了SOTA性能,超过了现有的统一模型。通过实验证明,降低通道维度比空间下采样在重建和生成方面都更有效。UniCom在图像编辑中实现了卓越的可控性,并且即使不依赖VAE也能保持图像一致性。这些结果表明UniCom在多模态建模方面具有显著的优势。

🎯 应用场景

UniCom具有广泛的应用前景,例如图像编辑、图像生成、跨模态检索、视觉问答等。其在图像编辑方面的卓越可控性使其能够实现更加精细和自然的图像修改。此外,UniCom还可以应用于机器人视觉、自动驾驶等领域,为这些领域提供更强大的视觉理解和生成能力。未来,UniCom有望成为多模态人工智能领域的重要基石。

📄 摘要(原文)

Current unified multimodal models typically rely on discrete visual tokenizers to bridge the modality gap. However, discretization inevitably discards fine-grained semantic information, leading to suboptimal performance in visual understanding tasks. Conversely, directly modeling continuous semantic representations (e.g., CLIP, SigLIP) poses significant challenges in high-dimensional generative modeling, resulting in slow convergence and training instability. To resolve this dilemma, we introduce UniCom, a unified framework that harmonizes multimodal understanding and generation via compressed continuous representation. We empirically demonstrate that reducing channel dimension is significantly more effective than spatial downsampling for both reconstruction and generation. Accordingly, we design an attention-based semantic compressor to distill dense features into a compact unified representation. Furthermore, we validate that the transfusion architecture surpasses query-based designs in convergence and consistency. Experiments demonstrate that UniCom achieves state-of-the-art generation performance among unified models. Notably, by preserving rich semantic priors, it delivers exceptional controllability in image editing and maintains image consistency even without relying on VAE.