Visual Generation Tuning

📄 arXiv: 2511.23469v1 📥 PDF

作者: Jiahao Guo, Sinan Du, Jingfeng Yao, Wenyu Liu, Bo Li, Haoxiang Cao, Kun Gai, Chun Yuan, Kai Wu, Xinggang Wang

分类: cs.CV

发布日期: 2025-11-28

🔗 代码/项目: GITHUB


💡 一句话要点

提出视觉生成调优VGT,激发预训练VLM的视觉生成能力,加速自回归建模。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉生成 视觉语言模型 自回归建模 多模态学习 图像重建

📋 核心要点

  1. 现有VLM主要关注多模态理解,视觉生成能力未被充分挖掘,存在对齐成本高、收敛速度慢等问题。
  2. VGT通过将预训练VLM的语义编码器与像素解码器的潜在表示对齐,高效激发VLM的视觉生成能力。
  3. 实验表明,VGT在图像重建和生成任务上均取得显著提升,并展现出良好的扩展性和通用性。

📝 摘要(中文)

大型视觉语言模型(VLM)通过广泛的预训练有效地弥合了模态差距,获得了与语言对齐的复杂视觉表示。然而,这些为多模态理解任务优化的表示是否具有固有的视觉生成潜力仍未被充分探索。本文提出了视觉生成调优(VGT),一种旨在激发任何视觉语言模型中潜在视觉生成能力的新范式。通过在预训练良好的VLM上进行高效的视觉生成调优,我们显著降低了对齐成本,并加速了连续空间中自回归建模的收敛(加速20倍)。具体来说,我们摒弃了为扩散Transformer设计的纠缠像素级VAE,并通过将预训练VLM中的语义编码器与像素解码器的潜在表示对齐来构建VGT-AE。在图像重建任务中,我们以28倍的压缩率实现了26.67 PSNR和0.50 rFID,优于专门的VAE;在视觉生成任务中,我们在自回归模型中取得了最先进的结果,在GenEval上为0.77,在DPG-Bench上为78.73。此外,我们提出的VGT展示了显著的扩展潜力,并且可以灵活地赋予任何为多模态理解而训练的VLM以视觉生成能力,这为探索下一代统一多模态基础模型开辟了新的途径。

🔬 方法详解

问题定义:论文旨在解决如何有效利用预训练视觉语言模型(VLM)进行视觉生成的问题。现有的VLM主要针对多模态理解任务进行优化,其内部的视觉表示虽然强大,但直接用于视觉生成时,存在对齐成本高、训练收敛慢等问题。此外,现有的生成模型,如扩散模型,通常需要复杂的像素级VAE,计算成本高昂。

核心思路:论文的核心思路是通过视觉生成调优(VGT)来激发预训练VLM的视觉生成能力。VGT的关键在于将VLM中已经学习到的语义编码器与像素解码器的潜在表示进行对齐。这样,VLM的语义理解能力可以有效地迁移到视觉生成任务中,从而降低对齐成本,加速训练收敛。

技术框架:VGT的核心框架是VGT-AE,它由两部分组成:预训练VLM的语义编码器和一个像素解码器。首先,利用预训练VLM提取图像的语义特征。然后,将这些语义特征输入到像素解码器中,生成图像。VGT-AE的目标是最小化重建误差,使得生成的图像尽可能接近原始图像。整个流程可以看作是一个自编码器的结构,但其编码器部分来自于预训练的VLM。

关键创新:VGT最重要的创新点在于它利用了预训练VLM的语义编码器,避免了从头开始训练一个复杂的视觉编码器。与传统的VAE相比,VGT-AE不需要纠缠的像素级VAE,从而简化了模型结构,降低了计算成本。此外,VGT是一种通用的调优方法,可以应用于任何预训练的VLM,使其具备视觉生成能力。

关键设计:VGT的关键设计包括:1) 使用预训练VLM的语义编码器作为视觉编码器,充分利用其强大的语义理解能力;2) 设计简单的像素解码器,降低计算复杂度;3) 使用重建损失函数来对齐语义编码器和像素解码器的潜在表示;4) 通过实验验证了VGT在不同VLM上的有效性和扩展性。具体的损失函数和网络结构细节在论文中有详细描述,包括如何选择合适的VLM和解码器结构,以及如何调整训练参数以获得最佳性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

VGT在图像重建任务中,以28倍的压缩率实现了26.67 PSNR和0.50 rFID,优于专门的VAE。在视觉生成任务中,VGT在GenEval上取得了0.77的成绩,在DPG-Bench上取得了78.73的成绩,均优于现有的自回归模型。此外,VGT能够以20倍的速度加速自回归建模的收敛,显著提高了训练效率。

🎯 应用场景

VGT具有广泛的应用前景,包括图像生成、图像编辑、图像修复等。它可以用于创建逼真的图像,也可以用于修改现有图像的内容。此外,VGT还可以应用于虚拟现实、游戏开发等领域,为用户提供更加沉浸式的体验。VGT的通用性和高效性使其成为构建下一代多模态基础模型的有希望的途径。

📄 摘要(原文)

Large Vision Language Models (VLMs) effectively bridge the modality gap through extensive pretraining, acquiring sophisticated visual representations aligned with language. However, it remains underexplored whether these representations, optimized for multimodal understanding tasks, harbor an inherent potential for visual generation. In this paper, we propose VGT, Visual Generation Tuning, a novel paradigm designed to stimulate the underlying capabilities of visual generation within any vision language models. By performing efficient visual generation tuning on well-pretrained VLMs, we significantly mitigate the alignment costs and accelerate the convergence of autoregressive modeling in the continuous space (20x speedup). Specifically, we dismiss the entangled pixel-level VAEs designed for diffusion transformers and formulate VGT-AE through aligning the semantic encoders from pretrained VLMs with the latent representations of pixel decoders. In image reconstruction tasks, we achieve 26.67 PSNR and 0.50 rFID at a 28x compression ratio, outperforming specialized VAEs; in visual generation tasks, we achieve state-of-the-art outcomes among autoregressive models, 0.77 on GenEval and 78.73 on DPG-Bench. Furthermore, our proposed VGT showcases significant scaling promise and is versatile for endowing any VLMs trained for multimodal understanding with the capabilities of visual generation, which paves the new avenue to explore next-generation unified multimodal foundation models. Models and codes are available at https://github.com/hustvl/VGT.