From Blind Spots to Gains: Diagnostic-Driven Iterative Training for Large Multimodal Models

📄 arXiv: 2602.22859v1 📥 PDF

作者: Hongrui Jia, Chaoya Jiang, Shikun Zhang, Wei Ye

分类: cs.CV

发布日期: 2026-02-26

🔗 代码/项目: GITHUB


💡 一句话要点

提出诊断驱动的迭代训练方法DPE,提升大型多模态模型在开放任务上的持续学习能力

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型多模态模型 迭代训练 诊断驱动 持续学习 数据增强 强化学习 开放任务 智能体协作

📋 核心要点

  1. 现有LMM训练依赖静态数据和固定流程,难以诊断能力盲点和提供动态强化。
  2. DPE通过诊断指导数据生成和强化,形成螺旋循环,迭代改进模型。
  3. 实验表明,DPE在多个基准测试中实现了稳定提升,验证了其有效性。

📝 摘要(中文)

随着大型多模态模型(LMMs)规模的扩大和强化学习(RL)方法的成熟,LMMs在复杂的推理和决策制定方面取得了显著进展。然而,训练仍然依赖于静态数据和固定的流程,这使得诊断能力盲点或提供动态的、有针对性的强化变得困难。受到测试驱动的错误暴露和基于反馈的纠正优于重复实践的发现的启发,我们提出了诊断驱动的渐进演化(DPE),这是一个螺旋循环,其中诊断指导数据生成和强化,并且每次迭代重新诊断更新后的模型,以驱动下一轮有针对性的改进。DPE有两个关键组成部分。首先,多个智能体注释和质量控制海量的未标记多模态数据,使用诸如网络搜索和图像编辑之类的工具来生成多样化的、真实的样本。其次,DPE将失败归因于特定的弱点,动态地调整数据混合,并指导智能体生成以弱点为中心的数据,以进行有针对性的强化。在Qwen3-VL-8B-Instruct和Qwen2.5-VL-7B-Instruct上的实验表明,在11个基准测试中实现了稳定、持续的收益,表明DPE是开放任务分布下持续LMM训练的可扩展范例。我们的代码、模型和数据可在https://github.com/hongruijia/DPE公开获取。

🔬 方法详解

问题定义:现有大型多模态模型(LMMs)的训练方法主要依赖于静态数据集和固定的训练流程,这导致模型难以有效地识别和解决自身的能力盲点。当模型在特定类型的任务或数据上表现不佳时,很难动态地调整训练策略,从而限制了模型在开放任务分布下的持续学习能力。因此,如何设计一种能够动态诊断模型弱点并针对性地进行改进的训练方法是本文要解决的核心问题。

核心思路:本文的核心思路是借鉴测试驱动开发的思想,提出一种诊断驱动的渐进演化(DPE)框架。该框架通过一个螺旋式的迭代过程,不断地诊断模型的弱点,然后生成针对性的数据进行强化训练,从而逐步提升模型的能力。这种方法的关键在于能够动态地调整数据分布,并引导数据生成过程,使其专注于模型最需要改进的方面。

技术框架:DPE框架主要包含两个关键组成部分:数据生成和强化。首先,多个智能体利用网络搜索、图像编辑等工具,对海量的未标注多模态数据进行标注和质量控制,生成多样且真实的样本。然后,DPE框架会分析模型的失败案例,将失败归因于特定的弱点,并动态调整数据混合比例,引导智能体生成针对这些弱点的数据,用于后续的强化训练。每次迭代后,模型都会被重新诊断,以驱动下一轮的改进。

关键创新:DPE框架的关键创新在于其诊断驱动的迭代训练模式。与传统的静态数据训练方法不同,DPE能够动态地识别模型的弱点,并针对性地生成训练数据。这种方法使得模型能够更有效地学习和适应开放任务分布,从而实现持续的性能提升。此外,DPE框架还引入了多个智能体协同工作,共同生成高质量的训练数据,进一步提高了训练效率和数据多样性。

关键设计:DPE框架的关键设计包括:1) 智能体的数据生成策略,如何利用工具生成多样且真实的样本;2) 失败案例的分析方法,如何将失败归因于特定的弱点;3) 数据混合比例的动态调整策略,如何根据模型的弱点调整不同类型数据的比例;4) 强化学习的奖励函数设计,如何引导模型学习到期望的行为。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,DPE框架在Qwen3-VL-8B-Instruct和Qwen2.5-VL-7B-Instruct模型上,针对11个不同的基准测试,均实现了稳定且持续的性能提升。这些结果验证了DPE框架作为一种可扩展的持续LMM训练范例的有效性,表明其能够显著提高模型在开放任务分布下的表现。

🎯 应用场景

DPE框架具有广泛的应用前景,可用于提升各种大型多模态模型在开放任务上的性能,例如视觉问答、图像描述、机器人导航等。该方法能够帮助模型更好地理解和处理复杂的多模态数据,从而在实际应用中表现出更强的泛化能力和鲁棒性。此外,DPE框架还可以应用于模型的持续学习和终身学习,使其能够不断地适应新的任务和环境。

📄 摘要(原文)

As Large Multimodal Models (LMMs) scale up and reinforcement learning (RL) methods mature, LMMs have made notable progress in complex reasoning and decision making. Yet training still relies on static data and fixed recipes, making it difficult to diagnose capability blind spots or provide dynamic, targeted reinforcement. Motivated by findings that test driven error exposure and feedback based correction outperform repetitive practice, we propose Diagnostic-driven Progressive Evolution (DPE), a spiral loop where diagnosis steers data generation and reinforcement, and each iteration re-diagnoses the updated model to drive the next round of targeted improvement. DPE has two key components. First, multiple agents annotate and quality control massive unlabeled multimodal data, using tools such as web search and image editing to produce diverse, realistic samples. Second, DPE attributes failures to specific weaknesses, dynamically adjusts the data mixture, and guides agents to generate weakness focused data for targeted reinforcement. Experiments on Qwen3-VL-8B-Instruct and Qwen2.5-VL-7B-Instruct show stable, continual gains across eleven benchmarks, indicating DPE as a scalable paradigm for continual LMM training under open task distributions. Our code, models, and data are publicly available at https://github.com/hongruijia/DPE.