Image Generators are Generalist Vision Learners

作者: Valentin Gabeur, Shangbang Long, Songyou Peng, Paul Voigtlaender, Shuyang Sun, Yanan Bao, Karen Truong, Zhicheng Wang, Wenlei Zhou, Jonathan T. Barron, Kyle Genova, Nithish Kannen, Sherry Ben, Yandong Li, Mandy Guo, Suhas Yogin, Yiming Gu, Huizhong Chen, Oliver Wang, Saining Xie, Howard Zhou, Kaiming He, Thomas Funkhouser, Jean-Baptiste Alayrac, Radu Soricut

分类: cs.CV, cs.AI

发布日期: 2026-04-22

备注: Project Page: http://vision-banana.github.io

💡 一句话要点

Vision Banana：图像生成器通过指令微调成为通用视觉学习器，达到SOTA性能

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 图像生成 通用视觉学习 指令微调 视觉任务统一 零样本学习

📋 核心要点

现有视觉模型在特定任务上表现出色，但缺乏通用性和泛化能力，难以适应新的视觉任务。
论文提出Vision Banana模型，通过在图像生成模型上进行指令微调，使其能够处理各种2D和3D视觉任务。
Vision Banana在多个视觉任务上取得了SOTA性能，证明了图像生成预训练作为通用视觉学习器的潜力。

📝 摘要（中文）

最近的研究表明，图像和视频生成器表现出零样本视觉理解能力，类似于大型语言模型（LLM）通过生成式预训练发展出语言理解和推理的新兴能力。尽管长期以来人们推测创建视觉内容的能力意味着理解它的能力，但生成式视觉模型是否发展出强大的理解能力一直缺乏证据。本文证明了图像生成训练的作用类似于LLM预训练，使模型能够学习强大而通用的视觉表示，从而在各种视觉任务中实现SOTA性能。我们引入了Vision Banana，这是一个通用模型，通过在Nano Banana Pro（NBP）的原始训练数据以及少量的视觉任务数据上进行指令微调而构建。通过将视觉任务的输出空间参数化为RGB图像，我们无缝地将感知重新定义为图像生成。我们的通用模型Vision Banana在涉及2D和3D理解的各种视觉任务中实现了SOTA结果，击败或匹敌零样本领域专家，包括分割任务中的Segment Anything Model 3和度量深度估计中的Depth Anything系列。我们表明，这些结果可以通过轻量级的指令微调来实现，而不会牺牲基础模型的图像生成能力。优越的结果表明，图像生成预训练是一种通用的视觉学习器。它还表明，图像生成是视觉任务的统一和通用接口，类似于文本生成在语言理解和推理中的作用。我们可能正在见证计算机视觉的一个重大范式转变，其中生成式视觉预训练在构建用于生成和理解的基础视觉模型中发挥核心作用。

🔬 方法详解

问题定义：现有视觉模型通常针对特定任务进行优化，例如图像分类、目标检测或语义分割。这些模型在各自的领域表现出色，但缺乏通用性，难以适应新的视觉任务或跨领域应用。此外，训练这些模型通常需要大量的标注数据，成本高昂。因此，如何构建一个通用的、能够处理多种视觉任务的模型，并且能够利用无标注数据进行预训练，是一个重要的研究问题。

核心思路：论文的核心思路是将视觉任务重新定义为图像生成任务。通过将各种视觉任务的输出表示为RGB图像，模型可以通过生成图像来完成任务。这种方法将不同的视觉任务统一到一个框架下，使得模型可以共享知识和表示，从而提高泛化能力。此外，论文利用图像生成模型的预训练能力，通过指令微调的方式，将预训练的知识迁移到视觉任务中。

技术框架：Vision Banana模型基于Nano Banana Pro（NBP）架构，这是一个图像生成模型。该模型通过在大量的图像数据上进行预训练，学习了图像的底层表示。为了使模型能够处理视觉任务，论文采用了指令微调的方法。具体来说，论文构建了一个包含各种视觉任务的数据集，并将每个任务的输入和输出都表示为图像。然后，论文使用这些数据对NBP模型进行微调，使其能够根据给定的指令生成相应的图像。

关键创新：论文的关键创新在于将图像生成作为视觉任务的统一接口。通过将各种视觉任务都表示为图像生成任务，论文成功地构建了一个通用的视觉模型。这种方法不仅简化了模型的训练过程，而且提高了模型的泛化能力。此外，论文还证明了图像生成预训练可以作为一种有效的视觉学习方法，类似于语言模型中的预训练。

关键设计：在指令微调过程中，论文采用了轻量级的微调策略，以避免过度拟合。具体来说，论文只微调了NBP模型的部分参数，并使用了较小的学习率。此外，论文还使用了数据增强技术，以增加训练数据的多样性。在损失函数方面，论文使用了标准的图像生成损失函数，例如像素级别的均方误差损失。

🖼️ 关键图片

📊 实验亮点

Vision Banana在多个视觉任务上取得了SOTA性能，例如在语义分割任务中，其性能与Segment Anything Model 3相当甚至超过。在深度估计任务中，其性能优于Depth Anything系列模型。这些结果表明，图像生成预训练是一种有效的视觉学习方法，可以用于构建通用的视觉模型。

🎯 应用场景

该研究成果可应用于各种计算机视觉任务，例如自动驾驶、机器人导航、医学图像分析等。通过构建通用的视觉模型，可以降低开发成本，提高应用效率。未来，该方法有望推动计算机视觉领域的发展，实现更智能、更通用的视觉系统。

📄 摘要（原文）

Recent works show that image and video generators exhibit zero-shot visual understanding behaviors, in a way reminiscent of how LLMs develop emergent capabilities of language understanding and reasoning from generative pretraining. While it has long been conjectured that the ability to create visual content implies an ability to understand it, there has been limited evidence that generative vision models have developed strong understanding capabilities. In this work, we demonstrate that image generation training serves a role similar to LLM pretraining, and lets models learn powerful and general visual representations that enable SOTA performance on various vision tasks. We introduce Vision Banana, a generalist model built by instruction-tuning Nano Banana Pro (NBP) on a mixture of its original training data alongside a small amount of vision task data. By parameterizing the output space of vision tasks as RGB images, we seamlessly reframe perception as image generation. Our generalist model, Vision Banana, achieves SOTA results on a variety of vision tasks involving both 2D and 3D understanding, beating or rivaling zero-shot domain-specialists, including Segment Anything Model 3 on segmentation tasks, and the Depth Anything series on metric depth estimation. We show that these results can be achieved with lightweight instruction-tuning without sacrificing the base model's image generation capabilities. The superior results suggest that image generation pretraining is a generalist vision learner. It also shows that image generation serves as a unified and universal interface for vision tasks, similar to text generation's role in language understanding and reasoning. We could be witnessing a major paradigm shift for computer vision, where generative vision pretraining takes a central role in building Foundational Vision Models for both generation and understanding.

Image Generators are Generalist Vision Learners

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理