From Blind Spots to Gains: Diagnostic-Driven Iterative Training for Large Multimodal Models
作者: Hongrui Jia, Chaoya Jiang, Shikun Zhang, Wei Ye
分类: cs.CV
发布日期: 2026-02-28
💡 一句话要点
提出诊断驱动的迭代训练DPE,提升大规模多模态模型在开放任务上的持续学习能力
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大规模多模态模型 持续学习 诊断驱动训练 迭代优化 强化学习
📋 核心要点
- 现有LMM训练依赖静态数据和固定流程,难以诊断模型能力盲点并进行动态强化。
- DPE通过诊断驱动数据生成和强化,迭代更新模型,实现有针对性的能力提升。
- 实验表明,DPE在多个基准测试中实现了稳定、持续的性能提升,验证了其有效性。
📝 摘要(中文)
随着大规模多模态模型(LMMs)的扩展和强化学习(RL)方法的成熟,LMMs在复杂的推理和决策制定方面取得了显著进展。然而,训练仍然依赖于静态数据和固定的流程,这使得诊断能力盲点或提供动态、有针对性的强化变得困难。受到测试驱动的错误暴露和基于反馈的纠正优于重复实践的发现的启发,我们提出了诊断驱动的渐进式演化(DPE),这是一个螺旋循环,其中诊断指导数据生成和强化,并且每次迭代重新诊断更新后的模型,以驱动下一轮有针对性的改进。DPE有两个关键组成部分。首先,多个代理使用诸如网络搜索和图像编辑之类的工具来注释和质量控制海量的未标记多模态数据,以产生多样化的、真实的样本。其次,DPE将失败归因于特定的弱点,动态地调整数据混合,并指导代理生成以弱点为中心的数据以进行有针对性的强化。在Qwen3-VL-8B-Instruct和Qwen2.5-VL-7B-Instruct上的实验表明,在11个基准测试中实现了稳定、持续的收益,表明DPE是在开放任务分布下持续LMM训练的可扩展范例。
🔬 方法详解
问题定义:现有大规模多模态模型(LMMs)的训练方法主要依赖于静态数据集和固定的训练流程,这使得模型难以适应开放任务分布,并且难以诊断和解决模型在特定能力上的不足。模型在某些特定类型的任务或数据上表现不佳,但难以准确定位这些“盲点”并进行针对性的改进。
核心思路:论文的核心思路是采用一个诊断驱动的迭代训练框架,称为DPE(Diagnostic-driven Progressive Evolution)。该框架通过不断地诊断模型的弱点,并根据诊断结果动态地生成针对性的训练数据,从而实现模型的持续改进。这种方法借鉴了测试驱动开发的思想,即通过不断地测试和反馈来驱动模型的演进。
技术框架:DPE框架包含以下几个主要模块:1) 数据生成代理:多个代理利用网络搜索、图像编辑等工具,生成多样化的多模态数据。2) 质量控制:对生成的数据进行质量控制,确保数据的真实性和有效性。3) 诊断模块:分析模型的失败案例,将失败归因于特定的弱点。4) 数据混合调整:根据诊断结果,动态调整训练数据的混合比例,增加针对弱点的数据比例。5) 强化学习:使用生成的数据对模型进行强化学习,提升模型在特定弱点上的表现。整个流程是一个螺旋式的迭代过程,每次迭代都会重新诊断模型,并根据新的诊断结果进行下一轮的数据生成和强化。
关键创新:DPE的关键创新在于其诊断驱动的迭代训练模式。与传统的静态训练方法不同,DPE能够动态地调整训练数据,并针对模型的弱点进行有针对性的强化。这种方法能够更有效地利用数据,并提升模型在开放任务分布下的泛化能力。此外,DPE还引入了多个代理协同生成数据,并进行质量控制,从而保证了数据的多样性和质量。
关键设计:DPE的关键设计包括:1) 诊断指标:设计合适的诊断指标,能够准确地识别模型的弱点。2) 数据生成策略:设计有效的数据生成策略,能够生成针对特定弱点的数据。3) 数据混合策略:设计合理的数据混合策略,能够在保证整体性能的同时,提升模型在特定弱点上的表现。4) 强化学习算法:选择合适的强化学习算法,能够有效地利用生成的数据对模型进行强化。
🖼️ 关键图片
📊 实验亮点
实验结果表明,DPE方法在Qwen3-VL-8B-Instruct和Qwen2.5-VL-7B-Instruct模型上,通过11个基准测试,实现了稳定且持续的性能提升。这证明了DPE作为一种可扩展的范例,适用于开放任务分布下的持续LMM训练。具体提升幅度未知,但强调了“稳定、持续的收益”。
🎯 应用场景
DPE方法可应用于各种需要持续学习和适应的LMM应用场景,例如智能助手、自动驾驶、医疗诊断等。通过不断地诊断和改进模型,可以提升模型在复杂环境下的鲁棒性和可靠性,并降低部署和维护成本。该方法也为其他AI模型的持续学习提供了一种新的思路。
📄 摘要(原文)
As Large Multimodal Models (LMMs) scale up and reinforcement learning (RL) methods mature, LMMs have made notable progress in complex reasoning and decision making. Yet training still relies on static data and fixed recipes, making it difficult to diagnose capability blind spots or provide dynamic, targeted reinforcement. Motivated by findings that test driven error exposure and feedback based correction outperform repetitive practice, we propose Diagnostic-driven Progressive Evolution (DPE), a spiral loop where diagnosis steers data generation and reinforcement, and each iteration re-diagnoses the updated model to drive the next round of targeted improvement. DPE has two key components. First, multiple agents annotate and quality control massive unlabeled multimodal data, using tools such as web search and image editing to produce diverse, realistic samples. Second, DPE attributes failures to specific weaknesses, dynamically adjusts the data mixture, and guides agents to generate weakness focused data for targeted reinforcement. Experiments on Qwen3-VL-8B-Instruct and Qwen2.5-VL-7B-Instruct show stable, continual gains across eleven benchmarks, indicating DPE as a scalable paradigm for continual LMM training under open task distributions. Our code, models, and data are publicly available atthis https URL.