HYDRA: Unifying Multi-modal Generation and Understanding via Representation-Harmonized Tokenization

📄 arXiv: 2603.15228v1 📥 PDF

作者: Xuerui Qiu, Yutao Cui, Guozhen Zhang, Junzhe Li, JiaKui Hu, Xiao Zhang, Yang Li, Songtao Liu, Miles Yang, Yu Shi, Zhao Zhong, Liefeng Bo

分类: cs.CV

发布日期: 2026-03-16

备注: Work in progress: We are actively scaling up the models. More updates coming soon


💡 一句话要点

提出HYDRA,通过表征协调的Token化统一多模态生成与理解。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 统一模型 视觉生成 视觉理解 Transformer 表征学习 视觉重建

📋 核心要点

  1. 现有统一多模态模型难以兼顾视觉理解的抽象表征和生成任务的细节基元,导致信息不连贯和优化冲突。
  2. HYDRA通过表征协调的Token化方法,将视觉建模从生成演变为理解,利用生成-语义瓶颈(GSB)实现特征的压缩和恢复。
  3. HYDRA在视觉重建和生成任务中达到SOTA,并在多个理解基准上显著优于之前的原生统一多模态模型。

📝 摘要(中文)

统一多模态模型难以弥合视觉理解所需的抽象表征与生成所需的详细基元之间的根本差距。现有方法通常采用解耦编码器、在VAE之上堆叠表征编码器或利用离散量化,但这些方法会扰乱信息连贯性并导致优化冲突。为此,我们引入HYDRA-TOK,这是一种表征协调的纯ViT,其核心思想是视觉建模应从生成演变为理解。HYDRA-TOK将标准骨干网络重构为渐进式学习器,从捕获结构保持基元的Gen-ViT过渡到用于语义编码的Sem-ViT。关键在于,这种过渡由生成-语义瓶颈(GSB)介导,GSB将特征压缩到低维空间以过滤噪声,从而实现稳健的合成,然后恢复维度以增强复杂的语义理解。在此基础上,我们提出了HYDRA,一个原生统一框架,在单个参数空间内集成感知和生成。大量实验表明HYDRA是一种新的最先进技术,在视觉重建(rFID 0.08)中树立了基准,并在GenEval(0.86)、DPG-Bench(86.4)和WISE(0.53)上实现了顶级的生成性能,同时在八个具有挑战性的理解基准上,其性能比以前的原生UMM平均高出10.0个百分点。

🔬 方法详解

问题定义:现有统一多模态模型在视觉理解和生成任务中存在根本差距,难以同时处理抽象表征和细节基元。现有方法如解耦编码器、VAE堆叠和离散量化,会破坏信息连贯性,导致优化冲突,限制了模型性能。

核心思路:HYDRA的核心思路是将视觉建模从生成演变为理解。通过设计一个渐进式学习器,模型首先学习结构保持的基元(Gen-ViT),然后过渡到语义编码(Sem-ViT)。这种过渡由生成-语义瓶颈(GSB)介导,GSB负责特征压缩和恢复,从而过滤噪声并增强语义理解能力。

技术框架:HYDRA的整体架构是一个原生统一框架,包含Gen-ViT、Sem-ViT和GSB三个主要模块。Gen-ViT负责捕获图像的结构信息,Sem-ViT负责进行语义编码,GSB则连接两者,实现特征的压缩和恢复。整个框架在一个单一的参数空间内集成感知和生成任务。

关键创新:HYDRA的关键创新在于GSB的设计,它充当了生成和语义之间的桥梁。GSB通过压缩特征到低维空间来过滤噪声,从而实现更鲁棒的生成。同时,GSB又将维度恢复,使得模型能够进行更复杂的语义理解。这种设计避免了传统方法中信息连贯性的破坏和优化冲突。

关键设计:HYDRA-TOK将标准ViT骨干网络重构为渐进式学习器。GSB的具体实现细节(例如压缩比例、激活函数、损失函数等)以及Gen-ViT和Sem-ViT的网络结构设计是影响模型性能的关键因素。论文中可能包含关于这些参数的具体设置和优化策略,但具体细节未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

HYDRA在视觉重建任务中取得了rFID 0.08的优异成绩,并在GenEval(0.86)、DPG-Bench(86.4)和WISE(0.53)等生成基准上达到了顶尖水平。同时,在八个具有挑战性的理解基准上,HYDRA的性能比之前的原生UMM平均高出10.0个百分点,证明了其在统一多模态建模方面的优势。

🎯 应用场景

HYDRA具有广泛的应用前景,可应用于图像生成、图像编辑、视频理解、机器人视觉等领域。其统一的框架设计使得模型能够同时执行感知和生成任务,降低了开发成本,提高了效率。未来,HYDRA有望推动多模态人工智能的发展,实现更智能、更强大的视觉系统。

📄 摘要(原文)

Unified Multimodal Models struggle to bridge the fundamental gap between the abstract representations needed for visual understanding and the detailed primitives required for generation. Existing approaches typically compromise by employing decoupled encoders, stacking representation encoder atop VAEs, or utilizing discrete quantization. However, these methods often disrupt information coherence and lead to optimization conflicts. To this end, we introduce HYDRA-TOK, a representation-harmonized pure ViT in the insight that visual modeling should evolve from generation to understanding. HYDRA-TOK reformulates the standard backbone into a progressive learner that transitions from a Gen-ViT, which captures structure-preserving primitives, to a Sem-ViT for semantic encoding. Crucially, this transition is mediated by a Generation-Semantic Bottleneck (GSB), which compresses features into a low-dimensional space to filter noise for robust synthesis, then restores dimensionality to empower complex semantic comprehension. Built upon this foundation, we present HYDRA, a native unified framework integrating perception and generation within a single parameter space. Extensive experiments establish HYDRA as a new state-of-the-art. It sets a benchmark in visual reconstruction (rFID 0.08) and achieves top-tier generation performance on GenEval (0.86), DPG-Bench (86.4), and WISE (0.53), while simultaneously outperforming previous native UMMs by an average of 10.0 points across eight challenging understanding benchmarks.