Tuna-2: Pixel Embeddings Beat Vision Encoders for Multimodal Understanding and Generation

📄 arXiv: 2604.24763v1 📥 PDF

作者: Zhiheng Liu, Weiming Ren, Xiaoke Huang, Shoufa Chen, Tianhong Li, Mengzhao Chen, Yatai Ji, Sen He, Jonas Schult, Belinda Zeng, Tao Xiang, Wenhu Chen, Ping Luo, Luke Zettlemoyer, Yuren Cong

分类: cs.CV

发布日期: 2026-04-27

备注: Project page: https://tuna-ai.org/tuna-2


💡 一句话要点

Tuna-2:像素嵌入超越视觉编码器,实现多模态理解与生成

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 像素嵌入 视觉理解 图像生成 端到端训练

📋 核心要点

  1. 现有统一多模态模型依赖预训练视觉编码器,理解和生成任务使用分离的视觉表征,导致任务间不一致,阻碍了从原始像素的端到端优化。
  2. Tuna-2通过直接在像素空间进行视觉理解和生成,避免了对预训练视觉编码器的依赖,简化了模型架构,实现了真正的端到端训练。
  3. 实验结果表明,Tuna-2在多模态任务上达到了SOTA性能,尤其在需要细粒度视觉感知的任务上,证明了像素空间学习的有效性。

📝 摘要(中文)

本文提出了Tuna-2,一种原生的统一多模态模型,它直接基于像素嵌入执行视觉理解和生成。Tuna-2通过采用简单的patch嵌入层来编码视觉输入,彻底简化了模型架构,完全抛弃了VAE或表征编码器等模块化的视觉编码器设计。实验表明,Tuna-2在多模态基准测试中取得了最先进的性能,证明了统一的像素空间建模可以与潜在空间方法竞争,实现高质量的图像生成。此外,虽然基于编码器的变体在早期预训练中收敛更快,但Tuna-2的无编码器设计在更大规模上实现了更强的多模态理解,尤其是在需要细粒度视觉感知的任务上。这些结果表明,预训练的视觉编码器对于多模态建模不是必需的,端到端的像素空间学习为生成和感知提供了更强的视觉表征的可扩展路径。

🔬 方法详解

问题定义:现有统一多模态模型通常依赖于预训练的视觉编码器,这导致了两个主要问题:一是视觉理解和生成任务使用分离的视觉表征,造成了任务之间的不对齐;二是阻碍了从原始像素到最终输出的端到端优化,限制了模型的整体性能。现有方法的痛点在于对预训练视觉编码器的依赖,以及由此带来的任务不对齐和优化瓶颈。

核心思路:Tuna-2的核心思路是直接在像素空间进行多模态建模,避免使用预训练的视觉编码器。通过将图像直接嵌入到像素空间,模型可以学习到更适合生成和理解任务的统一视觉表征。这种设计简化了模型架构,并允许端到端的优化,从而提高了模型的整体性能。

技术框架:Tuna-2的整体架构包括一个简单的patch嵌入层,用于将图像分割成patch并嵌入到像素空间中。然后,这些像素嵌入被输入到一个Transformer模型中,该模型同时处理视觉和文本信息,以实现多模态理解和生成。模型没有使用任何预训练的视觉编码器,而是从头开始学习视觉表征。

关键创新:Tuna-2最重要的技术创新点在于其无编码器的设计,它完全抛弃了预训练的视觉编码器,直接在像素空间进行多模态建模。这种设计与现有方法的本质区别在于,它避免了对预训练视觉表征的依赖,从而实现了真正的端到端优化,并允许模型学习到更适合多模态任务的视觉表征。

关键设计:Tuna-2的关键设计包括使用简单的patch嵌入层来编码视觉输入,以及使用Transformer模型来处理多模态信息。具体的参数设置和网络结构细节在论文中进行了详细描述。损失函数的设计也至关重要,它需要能够有效地训练模型进行多模态理解和生成。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Tuna-2在多项多模态基准测试中取得了SOTA性能,证明了其在视觉理解和生成方面的优越性。尤其是在需要细粒度视觉感知的任务上,Tuna-2的表现明显优于基于预训练视觉编码器的模型。实验结果表明,Tuna-2的无编码器设计能够学习到更适合多模态任务的视觉表征,从而提高了模型的整体性能。

🎯 应用场景

Tuna-2的研究成果具有广泛的应用前景,包括图像描述生成、视觉问答、图像编辑和生成等领域。该模型能够更好地理解图像内容,并生成高质量的图像,有望提升人机交互的效率和质量。未来,该技术还可以应用于智能客服、自动驾驶、医疗诊断等领域,为人们的生活带来更多便利。

📄 摘要(原文)

Unified multimodal models typically rely on pretrained vision encoders and use separate visual representations for understanding and generation, creating misalignment between the two tasks and preventing fully end-to-end optimization from raw pixels. We introduce Tuna-2, a native unified multimodal model that performs visual understanding and generation directly based on pixel embeddings. Tuna-2 drastically simplifies the model architecture by employing simple patch embedding layers to encode visual input, completely discarding the modular vision encoder designs such as the VAE or the representation encoder. Experiments show that Tuna-2 achieves state-of-the-art performance in multimodal benchmarks, demonstrating that unified pixel-space modelling can fully compete with latent-space approaches for high-quality image generation. Moreover, while the encoder-based variant converges faster in early pretraining, Tuna-2's encoder-free design achieves stronger multimodal understanding at scale, particularly on tasks requiring fine-grained visual perception. These results show that pretrained vision encoders are not necessary for multimodal modelling, and end-to-end pixel-space learning offers a scalable path toward stronger visual representations for both generation and perception.