RISE: Reliable Improvement in Self-Evolving Vision-Language Models
作者: Chaoran Xu, Yingmao Miao, Pengfei Zhang, Hao Dou, Lei Sun, Xiangxiang Chu
分类: cs.CV
发布日期: 2026-05-20
🔗 代码/项目: GITHUB
💡 一句话要点
提出RISE框架,提升视觉-语言模型自进化学习的可靠性和效率
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉-语言模型 自进化学习 多模态学习 无监督学习 知识蒸馏
📋 核心要点
- 现有VLM自进化方法存在角色交替粗糙、问题质量退化和问题类型坍塌等问题,限制了自进化的效率和可靠性。
- RISE框架通过细粒度角色交替、质量监督器和技能感知动态平衡,实现更可靠和有效的VLM自进化学习。
- 实验结果表明,RISE在多个VLM骨干网络和基准测试中均取得了显著提升,验证了其有效性和泛化能力。
📝 摘要(中文)
视觉-语言模型(VLM)已经展现出强大的多模态推理能力,但进一步提升仍然严重依赖于大规模的人工构建的后训练监督。这种监督获取成本高昂,特别是对于推理密集型的多模态任务,问题、答案和反馈信号必须经过精心设计。这促使了自进化学习的发展,模型通过双重角色的闭环来改进自身:提问者自主提出问题,解答者学习解决这些问题。然而,我们观察到当前的VLM自进化方法仍然面临三个主要挑战:粗粒度的角色交替延迟了问题生成和解答者适应之间的交互;生成的问题质量可能会逐渐下降;问题类型可能会崩溃为狭窄的分布。这些问题限制了自进化的效率和可靠性。因此,我们提出了RISE,一个用于视觉-语言模型的可靠的自进化框架。RISE建立在三个互补的设计之上:细粒度的角色交替,缩短了提问者和解答者之间的反馈循环,以提高效率;质量监督器,提高了问题有效性和伪标签的可靠性;以及技能感知的动态平衡,减轻了模式崩溃,并在进化过程中保持广泛的技能覆盖。总之,这些组件使得从无标签图像中进行更可靠和有效的自进化成为可能。在七个基准测试中对两个VLM骨干网络进行的实验表明,RISE始终改进了基础模型,产生了广泛而持续的收益。我们的代码已公开发布在https://github.com/AMAP-ML/RISE。
🔬 方法详解
问题定义:现有视觉-语言模型(VLM)的自进化学习方法,在没有人工标注数据的情况下,通过模型自身生成问题和答案进行学习。然而,这些方法存在三个主要问题:一是提问者和解答者角色切换过于粗糙,反馈循环长,学习效率低;二是生成的问题质量会随着迭代逐渐下降,导致模型学到错误的知识;三是生成的问题类型会逐渐集中到少数几种,导致模型技能单一,泛化能力差。
核心思路:RISE的核心思路是通过更精细的控制和监督,提高自进化学习过程中生成问题的质量和多样性,并加速提问者和解答者之间的反馈循环。具体来说,RISE引入了细粒度的角色交替、质量监督器和技能感知的动态平衡机制,从而解决了现有方法的不足。
技术框架:RISE框架包含三个主要模块:1) 细粒度角色交替:提问者和解答者不再是固定周期性切换,而是根据学习情况动态调整,缩短反馈循环;2) 质量监督器:使用一个额外的模型来评估生成问题的质量,过滤掉低质量的问题,并提高伪标签的可靠性;3) 技能感知动态平衡:通过监控模型在不同技能上的表现,动态调整问题生成策略,避免问题类型坍塌,保持技能覆盖的广泛性。
关键创新:RISE的关键创新在于其综合考虑了自进化学习过程中的效率、质量和多样性三个方面,并提出了相应的解决方案。与现有方法相比,RISE能够更有效地利用无标签数据,提升VLM的性能和泛化能力。细粒度角色交替加速了学习过程,质量监督器保证了学习的可靠性,技能感知动态平衡则提升了模型的泛化能力。
关键设计:在细粒度角色交替中,使用一个阈值来判断解答者的学习效果,如果效果提升不明显,则切换到提问者角色。质量监督器使用一个预训练的VLM来评估生成问题的合理性和答案的正确性,并根据评估结果对问题进行过滤。技能感知动态平衡则通过计算模型在不同技能上的梯度范数来衡量技能掌握程度,并根据梯度范数调整问题生成策略。
🖼️ 关键图片
📊 实验亮点
实验结果表明,RISE在多个VLM骨干网络(如BLIP-2和InstructBLIP)和七个基准测试中均取得了显著提升。例如,在VQA任务中,RISE将BLIP-2的性能提升了超过3个百分点,证明了其有效性和泛化能力。此外,消融实验也验证了RISE中各个模块的有效性。
🎯 应用场景
RISE框架可应用于各种视觉-语言任务,例如图像描述、视觉问答、图像检索等。通过自进化学习,可以降低对人工标注数据的依赖,从而降低模型训练成本,并提升模型在实际应用中的泛化能力。该研究对于推动VLM在资源受限场景下的应用具有重要意义。
📄 摘要(原文)
Vision-language models (VLMs) have achieved strong multimodal reasoning capabilities, but further improving them still relies heavily on large-scale human-constructed supervision for post-training. Such supervision is costly to obtain, especially for reasoning-intensive multimodal tasks where questions, answers, and feedback signals must be carefully designed. This motivates self-evolving learning, where a model improves itself through a dual-role closed loop: a questioner autonomously poses questions and a solver learns to solve them. However, we observe that current VLM self-evolving methods still face three major challenges: coarse-grained role alternation delays the interaction between question generation and solver adaptation; generated questions can progressively degrade in quality; and question types may collapse toward a narrow distribution. These issues limit the efficiency and reliability of self-evolution. Thus, we propose \textbf{RISE}, a reliable self-evolving framework for vision-language models. RISE is built on three complementary designs: fine-grained role alternation, which shortens the feedback loop between the questioner and the solver to improve efficiency; a quality supervisor, which improves question validity and pseudo-label reliability; and skill-aware dynamic balancing, which mitigates mode collapse and maintains broad skill coverage during evolution. Together, these components enable more reliable and effective self-evolution from unlabeled images. Experiments on two VLM backbones across seven benchmarks show that RISE consistently improves the base models, yielding broad and sustained gains. Our code is publicly available at https://github.com/AMAP-ML/RISE.