VARGPT-v1.1: Improve Visual Autoregressive Large Unified Model via Iterative Instruction Tuning and Reinforcement Learning

📄 arXiv: 2504.02949v1 📥 PDF

作者: Xianwei Zhuang, Yuxin Xie, Yufan Deng, Dongchao Yang, Liming Liang, Jinghan Ru, Yuguo Yin, Yuexian Zou

分类: cs.CV, cs.AI

发布日期: 2025-04-03

备注: Code is available at: https://github.com/VARGPT-family/VARGPT-v1.1. arXiv admin note: text overlap with arXiv:2501.12327

🔗 代码/项目: GITHUB


💡 一句话要点

VARGPT-v1.1:通过迭代指令调优和强化学习提升视觉自回归大统一模型

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉自回归模型 指令调优 强化学习 多模态理解 图像生成 图像编辑 Qwen2

📋 核心要点

  1. 现有视觉模型在统一理解、生成和编辑能力方面存在挑战,难以兼顾性能与灵活性。
  2. VARGPT-v1.1通过迭代指令调优和强化学习,结合扩展数据集和升级的语言模型,提升了模型性能。
  3. 实验表明,VARGPT-v1.1在多模态理解和文本到图像生成任务中取得了显著提升,并涌现了图像编辑能力。

📝 摘要(中文)

本文介绍了VARGPT-v1.1,一个在先前框架VARGPT基础上构建的先进统一视觉自回归模型。该模型保留了用于视觉理解的next-token预测和用于图像合成的next-scale生成的双重范式。具体来说,VARGPT-v1.1集成了:(1)一种新颖的训练策略,将迭代视觉指令调优与通过直接偏好优化(DPO)进行的强化学习相结合,(2)一个包含830万个视觉生成指令对的扩展训练语料库,(3)一个使用Qwen2升级的语言模型骨干,(4)增强的图像生成分辨率,以及(5)无需架构修改的涌现图像编辑能力。这些进步使VARGPT-v1.1在多模态理解和文本到图像指令跟随任务中实现了最先进的性能,在理解和生成指标方面都表现出显著的改进。值得注意的是,通过视觉指令调优,该模型获得了图像编辑功能,同时保持了与其前身架构的一致性,揭示了统一视觉理解、生成和编辑的潜力。我们的研究结果表明,精心设计的统一视觉自回归模型可以有效地采用来自大型语言模型(LLM)的灵活训练策略,表现出良好的可扩展性。代码库和模型权重可在https://github.com/VARGPT-family/VARGPT-v1.1公开获取。

🔬 方法详解

问题定义:现有视觉模型通常在视觉理解、图像生成和图像编辑等任务上是分离的,缺乏一个统一的框架。此外,如何有效地利用大型语言模型(LLM)的训练策略来提升视觉模型的性能也是一个挑战。现有方法难以在保持架构一致性的前提下,同时提升模型的理解、生成和编辑能力。

核心思路:VARGPT-v1.1的核心思路是构建一个统一的视觉自回归模型,通过迭代视觉指令调优和强化学习,使其能够同时进行视觉理解、图像生成和图像编辑。通过借鉴LLM的训练策略,并结合扩展的视觉生成指令对数据集,提升模型的性能和泛化能力。

技术框架:VARGPT-v1.1的整体框架基于视觉自回归模型,包含以下主要模块:1) 图像编码器:将输入图像编码成视觉特征表示。2) 语言模型骨干:使用Qwen2作为语言模型,用于处理文本指令和生成图像。3) 解码器:根据视觉特征和文本指令,生成图像或进行图像编辑。训练过程包括迭代视觉指令调优和通过直接偏好优化(DPO)进行的强化学习。

关键创新:VARGPT-v1.1的关键创新在于:1) 结合迭代视觉指令调优和强化学习,提升模型性能。2) 扩展了训练数据集,包含830万个视觉生成指令对。3) 在保持架构一致性的前提下,使模型涌现了图像编辑能力。4) 使用Qwen2作为语言模型骨干,提升了模型的文本理解和生成能力。

关键设计:在训练过程中,采用了迭代指令调优策略,通过多轮的指令生成和模型反馈,逐步提升模型的性能。强化学习部分使用了直接偏好优化(DPO)算法,直接优化模型的偏好,避免了传统的强化学习方法中的奖励函数设计问题。图像生成分辨率得到了增强,使得生成的图像更加清晰和逼真。此外,模型在训练过程中没有进行任何针对图像编辑的架构修改,图像编辑能力是自然涌现的。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

VARGPT-v1.1在多模态理解和文本到图像指令跟随任务中取得了最先进的性能。通过视觉指令调优,模型获得了图像编辑功能,同时保持了架构的一致性。实验结果表明,VARGPT-v1.1在各项指标上均优于之前的版本和同类模型,证明了其有效性和优越性。

🎯 应用场景

VARGPT-v1.1具有广泛的应用前景,包括图像生成、图像编辑、多模态对话、视觉内容创作等领域。该模型可以用于生成高质量的图像,根据文本指令编辑图像,以及进行多模态的交互。未来,该模型有望应用于智能设计、虚拟现实、教育娱乐等领域,为用户提供更加智能和便捷的视觉服务。

📄 摘要(原文)

In this work, we present VARGPT-v1.1, an advanced unified visual autoregressive model that builds upon our previous framework VARGPT. The model preserves the dual paradigm of next-token prediction for visual understanding and next-scale generation for image synthesis. Specifically, VARGPT-v1.1 integrates: (1) a novel training strategy combining iterative visual instruction tuning with reinforcement learning through Direct Preference Optimization (DPO), (2) an expanded training corpus containing 8.3M visual-generative instruction pairs, (3) an upgraded language model backbone using Qwen2, (4) enhanced image generation resolution, and (5) emergent image editing capabilities without architectural modifications. These advancements enable VARGPT-v1.1 to achieve state-of-the-art performance in multimodal understanding and text-to-image instruction-following tasks, demonstrating significant improvements in both comprehension and generation metrics. Notably, through visual instruction tuning, the model acquires image editing functionality while maintaining architectural consistency with its predecessor, revealing the potential for unified visual understanding, generation, and editing. Our findings suggest that well-designed unified visual autoregressive models can effectively adopt flexible training strategies from large language models (LLMs), exhibiting promising scalability. The codebase and model weights are publicly available at https://github.com/VARGPT-family/VARGPT-v1.1.