MM-Zero: Self-Evolving Multi-Model Vision Language Models From Zero Data

作者: Zongxia Li, Hongyang Du, Chengsong Huang, Xiyang Wu, Lantao Yu, Yicheng He, Jing Xie, Xiaomin Wu, Zhichao Liu, Jiarui Zhang, Fuxiao Liu

分类: cs.CV, cs.LG

发布日期: 2026-03-10

💡 一句话要点

MM-Zero：首个零数据自进化多模型视觉语言模型框架

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 自进化学习 零数据学习 多模态推理 强化学习 多智能体系统 视觉概念生成

📋 核心要点

现有VLM自进化方法依赖于初始种子数据，限制了其在数据稀缺场景下的应用。
MM-Zero提出多角色自进化框架，包含Proposer、Coder和Solver，实现零数据VLM推理。
实验表明，MM-Zero在多个多模态基准测试中显著提升了VLM的推理性能。

📝 摘要（中文）

自进化已成为提升大型语言模型（LLM）和视觉语言模型（VLM）等基础模型的关键范式，它只需要极少的人工干预。虽然最近的方法表明，LLM Agent可以在几乎没有数据的情况下从头开始自进化，但VLM引入了额外的视觉模态，这通常需要至少一些种子数据（例如图像）来引导自进化过程。本文提出了多模型多模态零（MM-Zero），这是第一个基于强化学习的框架，用于实现VLM推理的零数据自进化。MM-Zero超越了先前的双重角色（Proposer和Solver）设置，引入了一个包含三个专门角色的多角色自进化训练框架：Proposer生成抽象的视觉概念并提出问题；Coder将这些概念转换为可执行代码（例如，Python，SVG）以渲染视觉图像；Solver对生成的视觉内容执行多模态推理。所有三个角色都从同一个基础模型初始化，并使用组相对策略优化（GRPO）进行训练，其中精心设计的奖励机制集成了执行反馈、视觉验证和难度平衡。实验表明，MM-Zero提高了VLM在各种多模态基准测试中的推理性能。MM-Zero为多模态模型的自进化多模型系统建立了一条可扩展的路径，将自改进的前沿扩展到传统的双模型范式之外。

🔬 方法详解

问题定义：现有视觉语言模型（VLM）的自进化通常需要预先存在的图像数据作为引导，这限制了它们在数据匮乏场景下的应用。如何让VLM在没有任何初始视觉数据的情况下实现自进化，是一个重要的挑战。现有的双角色（Proposer和Solver）框架难以有效探索复杂的视觉概念和推理过程。

核心思路：MM-Zero的核心思路是通过引入一个多角色自进化框架，将视觉概念的生成、图像的渲染和多模态推理解耦。Proposer负责提出抽象的视觉概念和问题，Coder将这些概念转化为可执行代码生成图像，Solver则基于生成的图像进行推理。这种解耦使得模型能够从零开始学习视觉概念和推理能力。

技术框架：MM-Zero包含三个主要模块：Proposer、Coder和Solver。Proposer生成视觉概念和问题，Coder将概念转化为可执行代码（如Python或SVG）以渲染图像，Solver基于生成的图像和问题进行多模态推理。这三个模块共享同一个基础模型，并通过组相对策略优化（GRPO）进行联合训练。训练过程中，使用精心设计的奖励机制，包括执行反馈、视觉验证和难度平衡，以引导模型的学习。

关键创新：MM-Zero最重要的创新在于实现了VLM的零数据自进化。通过多角色框架和强化学习，模型能够从零开始学习视觉概念、图像渲染和多模态推理，无需任何初始图像数据。此外，GRPO的使用能够有效地协调多个角色之间的学习，提高整体性能。

关键设计：MM-Zero的关键设计包括：1) Proposer生成的视觉概念和问题的形式化表示；2) Coder将抽象概念转化为可执行代码的具体实现；3) Solver的多模态推理模型的选择和训练；4) GRPO的参数设置和奖励函数的具体设计，包括执行反馈（鼓励生成可执行的代码）、视觉验证（确保生成的图像符合概念描述）和难度平衡（逐步增加问题的复杂度）。具体参数和网络结构细节在论文附录中可能包含更详细的信息（未知）。

🖼️ 关键图片

📊 实验亮点

MM-Zero在多个多模态基准测试中取得了显著的性能提升，证明了其零数据自进化VLM推理的有效性。具体的性能数据和对比基线在论文中进行了详细的展示（具体数值未知），但总体而言，MM-Zero为VLM的自进化提供了一个新的方向。

🎯 应用场景

MM-Zero具有广泛的应用前景，例如在机器人导航、自动驾驶、智能家居等领域，可以使智能体在没有预训练数据的情况下，通过自我探索和学习，掌握视觉感知和推理能力。该研究为开发更通用、更智能的多模态系统奠定了基础，并有望推动人工智能在数据稀缺环境下的发展。

📄 摘要（原文）

Self-evolving has emerged as a key paradigm for improving foundational models such as Large Language Models (LLMs) and Vision Language Models (VLMs) with minimal human intervention. While recent approaches have demonstrated that LLM agents can self-evolve from scratch with little to no data, VLMs introduce an additional visual modality that typically requires at least some seed data, such as images, to bootstrap the self-evolution process. In this work, we present Multi-model Multimodal Zero (MM-Zero), the first RL-based framework to achieve zero-data self-evolution for VLM reasoning. Moving beyond prior dual-role (Proposer and Solver) setups, MM-Zero introduces a multi-role self-evolving training framework comprising three specialized roles: a Proposer that generates abstract visual concepts and formulates questions; a Coder that translates these concepts into executable code (e.g., Python, SVG) to render visual images; and a Solver that performs multimodal reasoning over the generated visual content. All three roles are initialized from the same base model and trained using Group Relative Policy Optimization (GRPO), with carefully designed reward mechanisms that integrate execution feedback, visual verification, and difficulty balancing. Our experiments show that MM-Zero improves VLM reasoning performance across a wide range of multimodal benchmarks. MM-Zero establishes a scalable path toward self-evolving multi-model systems for multimodal models, extending the frontier of self-improvement beyond the conventional two-model paradigm.

MM-Zero: Self-Evolving Multi-Model Vision Language Models From Zero Data

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理