Less Data, Faster Convergence: Goal-Driven Data Optimization for Multimodal Instruction Tuning
作者: Rujie Wu, Haozhe Zhao, Hai Ci, Yizhou Wang
分类: cs.CV, cs.LG
发布日期: 2026-03-12
🔗 代码/项目: GITHUB
💡 一句话要点
提出目标驱动数据优化(GDO)框架,加速多模态指令微调收敛并提升精度。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态学习 指令微调 数据优化 目标驱动 样本选择
📋 核心要点
- 多模态指令微调计算成本高昂,原因是训练数据集中样本质量参差不齐,导致训练效率低下。
- GDO框架通过计算样本描述符,并根据不同目标构建优化的训练子集,从而提高训练效率。
- 实验表明,GDO使用更少的训练样本,就能更快地收敛并达到更高的准确率,尤其在MVBench和MLVU数据集上提升显著。
📝 摘要(中文)
多模态指令微调通常计算效率低下,因为训练预算分散在大量混合图像-视频数据集中,而这些数据集的效用参差不齐。我们提出了目标驱动数据优化(GDO)框架,该框架为每个候选样本计算六个样本描述符,并构建针对不同目标优化的1×训练子集。在固定的单轮Qwen3-VL-8B-Instruct训练和8个H20 GPU的评估方案下,GDO使用远少于Uni-10x基线的训练样本,同时收敛速度更快,并实现了更高的准确率。相对于固定的512k样本Uni-10x基线,GDO在MVBench上使用35.4k样本、在VideoMME上使用26.6k样本、在MLVU上使用27.3k样本、在LVBench上使用34.7k样本就达到了Uni-10x的参考性能,同时分别将准确率提高了+1.38、+1.67、+3.08和+0.84个百分点。MVBench和MLVU上的增益最大,而LVBench的改进相对较小,这与它的超长视频设置以及该基准与短视频/图像主导的训练池之间的不匹配有关。在MinLoss、Diverse、Temp和Temp+中,更强的时间强调可以稳定地提高长视频理解能力。总而言之,GDO提供了一个目标驱动的数据优化框架,可以在固定的训练协议下,用更少的训练样本实现更快的收敛。
🔬 方法详解
问题定义:多模态指令微调任务中,现有方法通常采用大规模混合数据集进行训练,但这些数据集中样本的质量和相关性差异很大,导致训练效率低下,计算资源浪费。现有方法没有充分考虑数据集中不同样本对特定任务目标的贡献,从而限制了模型的性能提升。
核心思路:GDO的核心思路是根据不同的训练目标,对数据集中的样本进行选择和优化,构建更高效的训练子集。通过计算每个样本的描述符,并根据这些描述符来评估样本对特定目标的贡献,从而选择出最相关的样本进行训练。这种方法可以减少冗余和低质量样本的干扰,加速模型收敛,并提高模型性能。
技术框架:GDO框架主要包含以下几个阶段:1) 样本描述符计算:为每个候选样本计算六个描述符,用于衡量样本的质量、多样性和与特定任务的相关性。2) 目标定义:根据不同的训练目标(例如,提高特定任务的准确率、增强模型的泛化能力),定义相应的优化目标。3) 数据子集构建:根据样本描述符和优化目标,选择出最相关的样本,构建优化的训练子集。4) 模型训练:使用构建的训练子集对多模态模型进行指令微调。
关键创新:GDO的关键创新在于其目标驱动的数据优化方法。与传统的随机采样或基于启发式规则的数据选择方法不同,GDO能够根据不同的训练目标,自适应地选择最相关的样本进行训练。这种方法可以更有效地利用有限的计算资源,加速模型收敛,并提高模型性能。
关键设计:GDO的关键设计包括:1) 六个样本描述符的设计,用于全面评估样本的质量和相关性。2) 优化目标的定义,用于指导数据子集的构建。3) 数据选择算法的设计,用于高效地选择出最相关的样本。论文中使用了Qwen3-VL-8B-Instruct模型,并采用单轮训练的方式,在8个H20 GPU上进行实验。
🖼️ 关键图片
📊 实验亮点
实验结果表明,GDO在MVBench、VideoMME、MLVU和LVBench等数据集上均取得了显著的性能提升。例如,在MVBench上,GDO仅使用35.4k样本就达到了Uni-10x基线(512k样本)的性能,并将准确率提高了1.38个百分点。在MLVU上,准确率提升更是达到了3.08个百分点。这些结果表明,GDO能够有效地利用数据,加速模型收敛,并提高模型性能。
🎯 应用场景
GDO框架可应用于各种多模态学习任务,例如视觉问答、图像/视频描述、多模态对话等。通过优化训练数据,可以降低训练成本,加速模型开发,并提高模型在实际应用中的性能。该研究对于资源受限的场景具有重要意义,例如移动设备或边缘计算环境。
📄 摘要(原文)
Multimodal instruction tuning is often compute-inefficient because training budgets are spread across large mixed image-video pools whose utility is highly uneven. We present Goal-Driven Data Optimization (GDO), a framework that computes six sample descriptors for each candidate and constructs optimized 1$\times$ training subsets for different goals. Under a fixed one-epoch Qwen3-VL-8B-Instruct training and evaluation recipe on 8 H20 GPUs, GDO uses far fewer training samples than the Uni-10x baseline while converging faster and achieving higher accuracy. Relative to the fixed 512k-sample Uni-10x baseline, GDO reaches the Uni-10x reference after 35.4k samples on MVBench, 26.6k on VideoMME, 27.3k on MLVU, and 34.7k on LVBench, while improving Accuracy by +1.38, +1.67, +3.08, and +0.84 percentage points, respectively. The gains are largest on MVBench and MLVU, while LVBench improves more modestly, consistent with its ultra-long-video setting and the mismatch between that benchmark and the short-video/image-dominant training pool. Across MinLoss, Diverse, Temp, and Temp+, stronger temporal emphasis yields steadily better long-video understanding behavior. Overall, GDO provides a goal-driven data optimization framework that enables faster convergence with fewer training samples under a fixed training protocol. Code is available at https://github.com/rujiewu/GDO.