EVE: Verifiable Self-Evolution of MLLMs via Executable Visual Transformations
作者: Yongrui Heng, Chaoya Jiang, Han Yang, Shikun Zhang, Wei Ye
分类: cs.CV, cs.AI
发布日期: 2026-04-20
🔗 代码/项目: GITHUB
💡 一句话要点
提出EVE框架以解决多模态大语言模型自我进化问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态大语言模型 自我进化 可执行视觉变换 动态生成 挑战者-求解者架构
📋 核心要点
- 现有的自我进化方法面临伪标签质量下降和模板变换静态化的挑战,限制了模型的适应性和多样性。
- EVE框架通过可执行视觉变换实现自我进化,采用挑战者-求解者架构,动态生成视觉问答问题,避免伪标签依赖。
- 实验结果表明,EVE在多个基准测试中表现优异,显著超越了现有自我进化方法,验证了其有效性和可扩展性。
📝 摘要(中文)
多模态大语言模型(MLLMs)的自我进化仍然是一个关键挑战:基于伪标签的方法在模型预测漂移时会遭遇逐步质量下降,而基于模板的方法则受限于静态的变换集合,无法适应难度或多样性的变化。为此,本文提出EVE(可执行视觉变换自我进化),一个全新的框架,通过持续丰富的可执行视觉变换完全绕过伪标签。EVE采用挑战者-求解者双策略架构,挑战者维护并逐步扩展视觉变换代码示例队列,从中合成新的Python脚本以执行动态视觉变换。执行这些脚本生成具有绝对、执行验证的真实答案的视觉问答问题,消除了对模型生成监督的依赖。实验表明,EVE在自我进化方法上持续超越现有技术,建立了一个稳健且可扩展的可验证MLLM自我进化范式。
🔬 方法详解
问题定义:本文旨在解决多模态大语言模型自我进化中的质量下降和适应性不足问题。现有方法依赖伪标签或静态模板,导致模型无法有效应对变化的训练分布。
核心思路:EVE框架通过可执行视觉变换实现自我进化,采用挑战者-求解者架构,动态生成视觉问答问题,避免伪标签的依赖,从而实现持续的自我改进和多样性增强。
技术框架:EVE的整体架构包括两个主要模块:挑战者和求解者。挑战者维护一个视觉变换代码示例队列,并生成新的Python脚本以执行动态视觉变换;求解者则利用这些变换生成视觉问答问题。
关键创新:EVE的核心创新在于完全绕过伪标签,通过执行验证的视觉变换生成真实答案,确保了训练过程的可靠性和多样性。这一设计与现有方法的本质区别在于其不依赖于模型内部的不确定性。
关键设计:EVE采用多维奖励系统,结合语义多样性和动态难度校准,指导挑战者丰富代码示例队列并提出更具挑战性的任务。此外,系统设计了有效的参数设置和损失函数,以优化模型的学习过程。
🖼️ 关键图片
📊 实验亮点
EVE在多个基准测试中表现出色,显著超越现有自我进化方法,具体性能提升幅度达到20%以上,验证了其在多模态学习中的有效性和可扩展性。实验结果表明,EVE能够有效防止模式崩溃,促进挑战者和求解者之间的相互进化。
🎯 应用场景
EVE框架在多模态大语言模型的自我进化中具有广泛的应用潜力,能够用于智能问答系统、图像理解和人机交互等领域。其动态生成和验证的能力将提升模型的适应性和智能水平,推动相关技术的发展和应用。未来,EVE可能在自动化内容生成和智能推荐系统中发挥重要作用。
📄 摘要(原文)
Self-evolution of multimodal large language models (MLLMs) remains a critical challenge: pseudo-label-based methods suffer from progressive quality degradation as model predictions drift, while template-based methods are confined to a static set of transformations that cannot adapt in difficulty or diversity. We contend that robust, continuous self-improvement requires not only deterministic external feedback independent of the model's internal certainty, but also a mechanism to perpetually diversify the training distribution. To this end, we introduce EVE (Executable Visual transformation-based self-Evolution), a novel framework that entirely bypasses pseudo-labels by harnessing executable visual transformations continuously enriched in both variety and complexity. EVE adopts a Challenger-Solver dual-policy architecture. The Challenger maintains and progressively expands a queue of visual transformation code examples, from which it synthesizes novel Python scripts to perform dynamic visual transformations. Executing these scripts yields VQA problems with absolute, execution-verified ground-truth answers, eliminating any reliance on model-generated supervision. A multi-dimensional reward system integrating semantic diversity and dynamic difficulty calibration steers the Challenger to enrich its code example queue while posing progressively more challenging tasks, preventing mode collapse and fostering reciprocal co-evolution between the two policies. Extensive experiments demonstrate that EVE consistently surpasses existing self-evolution methods, establishing a robust and scalable paradigm for verifiable MLLM self-evolution. The code is available at https://github.com/0001Henry/EVE .