WinTok: A Win-Win Hybrid Tokenizer via Decomposing Visual Understanding and Generation with Transferable Tokens

📄 arXiv: 2605.18115v1 📥 PDF

作者: Yiwei Guo, Shaobin Zhuang, Zhipeng Huang, Canmiao Fu, Chen Li, Jing Lyu, Yali Wang

分类: cs.CV

发布日期: 2026-05-18

🔗 代码/项目: GITHUB


💡 一句话要点

WinTok:解耦视觉理解与生成,实现双赢的混合型视觉Token化器

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉Token化 混合Token 视觉理解 图像生成 非对称蒸馏 视觉基础模型 解耦学习

📋 核心要点

  1. 现有视觉Token化器难以兼顾视觉理解和生成任务,单一Token空间需同时支持高层语义和底层像素重建。
  2. WinTok通过引入可学习的语义Token,并结合像素Token,显式解耦理解和生成目标,降低跨任务干扰。
  3. WinTok利用非对称Token蒸馏,使语义Token从预训练视觉模型中学习,提升判别能力,并在多项任务上取得显著提升。

📝 摘要(中文)

构建统一的视觉Token化器对于弥合视觉理解和生成之间的差距至关重要。然而,现有方法难以解决这两项任务之间固有的冲突,因为单一的Token空间需要同时支持高层次的语义抽象和低层次的像素重建。我们提出了WinTok,一种简洁的混合型Token化器,通过显式地解耦这两个目标来实现双赢的性能。WinTok使用一组可学习的语义Token来补充像素Token,有效地减轻了跨任务的干扰,而不会产生双Token化器的计算开销。为了进一步增强理解能力,我们引入了一种非对称Token蒸馏机制:语义Token由来自任何视觉基础模型的预训练语义嵌入引导,使其能够继承强大的判别能力,同时保持灵活性。在10个具有挑战性的基准测试中,WinTok在重建、理解和生成方面都取得了持续的改进。WinTok仅在50M的开源数据上进行训练,在分类精度上超过了强大的基线UniTok 11.2%,并实现了具有竞争力的重建rFID 0.41,尽管使用的训练数据明显更少。

🔬 方法详解

问题定义:现有视觉Token化方法试图用单一的Token空间同时处理视觉理解和生成任务,这导致了任务间的冲突。理解任务需要高层次的语义抽象,而生成任务需要低层次的像素重建。这种冲突限制了Token化器在两个任务上的性能。

核心思路:WinTok的核心思路是将视觉理解和生成任务解耦,分别使用不同的Token类型来处理。具体来说,它使用像素Token来处理低层次的像素重建,并引入一组可学习的语义Token来处理高层次的语义抽象。通过这种方式,WinTok可以减轻跨任务的干扰,并提高Token化器在两个任务上的性能。这样设计的原因在于,像素Token更擅长捕捉图像的细节信息,而语义Token更擅长捕捉图像的语义信息。

技术框架:WinTok的整体架构包含两个主要部分:像素Token化器和语义Token化器。像素Token化器负责将输入图像转换为像素Token。语义Token化器负责生成一组可学习的语义Token。为了增强语义Token的理解能力,WinTok引入了一种非对称Token蒸馏机制,其中语义Token由来自预训练视觉基础模型的语义嵌入引导。整个流程可以概括为:输入图像 -> 像素Token -> 语义Token(通过蒸馏增强) -> 后续任务(理解或生成)。

关键创新:WinTok最重要的技术创新点在于其混合Token化方法,它将像素Token和语义Token结合起来,并使用非对称Token蒸馏来增强语义Token的理解能力。与现有方法相比,WinTok的本质区别在于它显式地解耦了视觉理解和生成任务,并分别使用不同的Token类型来处理这两个任务。这种解耦可以减轻跨任务的干扰,并提高Token化器在两个任务上的性能。

关键设计:WinTok的关键设计包括:1) 语义Token的数量:需要根据具体任务进行调整,以平衡计算成本和性能。2) 非对称Token蒸馏的损失函数:用于引导语义Token学习预训练视觉模型的语义嵌入。3) 像素Token和语义Token的融合方式:可以使用简单的拼接或更复杂的注意力机制。论文中使用了可学习的语义Token数量较少,以降低计算开销,并采用预训练模型的语义嵌入作为监督信号,通过蒸馏损失函数引导语义Token的学习。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

WinTok在10个具有挑战性的基准测试中取得了持续的改进。在分类精度上,WinTok超过了强大的基线UniTok 11.2%。在重建任务中,WinTok实现了具有竞争力的重建rFID 0.41,尽管使用的训练数据明显更少。这些结果表明,WinTok能够有效地解耦视觉理解和生成任务,并提高Token化器在两个任务上的性能。

🎯 应用场景

WinTok具有广泛的应用前景,包括图像分类、图像生成、目标检测、语义分割等。它能够提升各种视觉任务的性能,尤其是在需要同时进行视觉理解和生成的场景中。例如,在图像编辑任务中,WinTok可以用于更好地理解用户的编辑意图,并生成更符合用户期望的图像。未来,WinTok有望成为视觉基础模型的重要组成部分。

📄 摘要(原文)

Building a unified visual tokenizer is essential for bridging the gap between visual understanding and generation. Yet existing approaches struggle with the inherent conflict between these tasks, as a single token space is forced to support both high-level semantic abstraction and low-level pixel reconstruction. We propose WinTok, a concise hybrid tokenizer that achieves a win-win performance by explicitly decoupling the two objectives. WinTok supplements pixel tokens with a set of learnable semantic tokens, effectively mitigating cross-task interference without incurring the computational overhead of dual tokenizers. To further enhance understanding capability, we introduce an asymmetric token distillation mechanism: the semantic tokens are guided by pretrained semantic embeddings from any visual foundation model, enabling them to inherit strong discriminative power while maintaining flexibility. Across 10 challenging benchmarks, WinTok delivers consistent improvements in reconstruction, understanding, and generation. Trained on only 50M open-source data, WinTok surpasses the strong baseline UniTok by 11.2% in classification accuracy and achieves a competitive reconstruction rFID of 0.41, despite using substantially less training data. Code is released at https://github.com/markywg/WinTok.