Less Data, Faster Convergence: Goal-Driven Data Optimization for Multimodal Instruction Tuning

作者: Rujie Wu, Haozhe Zhao, Hai Ci, Yizhou Wang

分类: cs.CV, cs.LG

发布日期: 2026-03-12

🔗 代码/项目: GITHUB

💡 一句话要点

提出目标驱动数据优化（GDO）框架，加速多模态指令微调收敛并提升精度。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 指令微调 数据优化 目标驱动 样本选择

📋 核心要点

多模态指令微调计算成本高昂，原因是训练数据集中样本质量参差不齐，导致训练效率低下。
GDO框架通过计算样本描述符，并根据不同目标构建优化的训练子集，从而提高训练效率。
实验表明，GDO使用更少的训练样本，就能更快地收敛并达到更高的准确率，尤其在MVBench和MLVU数据集上提升显著。

📝 摘要（中文）

多模态指令微调通常计算效率低下，因为训练预算分散在大量混合图像-视频数据集中，而这些数据集的效用参差不齐。我们提出了目标驱动数据优化（GDO）框架，该框架为每个候选样本计算六个样本描述符，并构建针对不同目标优化的1×训练子集。在固定的单轮Qwen3-VL-8B-Instruct训练和8个H20 GPU的评估方案下，GDO使用远少于Uni-10x基线的训练样本，同时收敛速度更快，并实现了更高的准确率。相对于固定的512k样本Uni-10x基线，GDO在MVBench上使用35.4k样本、在VideoMME上使用26.6k样本、在MLVU上使用27.3k样本、在LVBench上使用34.7k样本就达到了Uni-10x的参考性能，同时分别将准确率提高了+1.38、+1.67、+3.08和+0.84个百分点。MVBench和MLVU上的增益最大，而LVBench的改进相对较小，这与它的超长视频设置以及该基准与短视频/图像主导的训练池之间的不匹配有关。在MinLoss、Diverse、Temp和Temp+中，更强的时间强调可以稳定地提高长视频理解能力。总而言之，GDO提供了一个目标驱动的数据优化框架，可以在固定的训练协议下，用更少的训练样本实现更快的收敛。

🔬 方法详解

问题定义：多模态指令微调任务中，现有方法通常采用大规模混合数据集进行训练，但这些数据集中样本的质量和相关性差异很大，导致训练效率低下，计算资源浪费。现有方法没有充分考虑数据集中不同样本对特定任务目标的贡献，从而限制了模型的性能提升。

核心思路：GDO的核心思路是根据不同的训练目标，对数据集中的样本进行选择和优化，构建更高效的训练子集。通过计算每个样本的描述符，并根据这些描述符来评估样本对特定目标的贡献，从而选择出最相关的样本进行训练。这种方法可以减少冗余和低质量样本的干扰，加速模型收敛，并提高模型性能。

技术框架：GDO框架主要包含以下几个阶段：1) 样本描述符计算：为每个候选样本计算六个描述符，用于衡量样本的质量、多样性和与特定任务的相关性。2) 目标定义：根据不同的训练目标（例如，提高特定任务的准确率、增强模型的泛化能力），定义相应的优化目标。3) 数据子集构建：根据样本描述符和优化目标，选择出最相关的样本，构建优化的训练子集。4) 模型训练：使用构建的训练子集对多模态模型进行指令微调。

关键创新：GDO的关键创新在于其目标驱动的数据优化方法。与传统的随机采样或基于启发式规则的数据选择方法不同，GDO能够根据不同的训练目标，自适应地选择最相关的样本进行训练。这种方法可以更有效地利用有限的计算资源，加速模型收敛，并提高模型性能。

关键设计：GDO的关键设计包括：1) 六个样本描述符的设计，用于全面评估样本的质量和相关性。2) 优化目标的定义，用于指导数据子集的构建。3) 数据选择算法的设计，用于高效地选择出最相关的样本。论文中使用了Qwen3-VL-8B-Instruct模型，并采用单轮训练的方式，在8个H20 GPU上进行实验。

🖼️ 关键图片

📊 实验亮点

实验结果表明，GDO在MVBench、VideoMME、MLVU和LVBench等数据集上均取得了显著的性能提升。例如，在MVBench上，GDO仅使用35.4k样本就达到了Uni-10x基线（512k样本）的性能，并将准确率提高了1.38个百分点。在MLVU上，准确率提升更是达到了3.08个百分点。这些结果表明，GDO能够有效地利用数据，加速模型收敛，并提高模型性能。

🎯 应用场景

GDO框架可应用于各种多模态学习任务，例如视觉问答、图像/视频描述、多模态对话等。通过优化训练数据，可以降低训练成本，加速模型开发，并提高模型在实际应用中的性能。该研究对于资源受限的场景具有重要意义，例如移动设备或边缘计算环境。

📄 摘要（原文）

Multimodal instruction tuning is often compute-inefficient because training budgets are spread across large mixed image-video pools whose utility is highly uneven. We present Goal-Driven Data Optimization (GDO), a framework that computes six sample descriptors for each candidate and constructs optimized 1$\times$ training subsets for different goals. Under a fixed one-epoch Qwen3-VL-8B-Instruct training and evaluation recipe on 8 H20 GPUs, GDO uses far fewer training samples than the Uni-10x baseline while converging faster and achieving higher accuracy. Relative to the fixed 512k-sample Uni-10x baseline, GDO reaches the Uni-10x reference after 35.4k samples on MVBench, 26.6k on VideoMME, 27.3k on MLVU, and 34.7k on LVBench, while improving Accuracy by +1.38, +1.67, +3.08, and +0.84 percentage points, respectively. The gains are largest on MVBench and MLVU, while LVBench improves more modestly, consistent with its ultra-long-video setting and the mismatch between that benchmark and the short-video/image-dominant training pool. Across MinLoss, Diverse, Temp, and Temp+, stronger temporal emphasis yields steadily better long-video understanding behavior. Overall, GDO provides a goal-driven data optimization framework that enables faster convergence with fewer training samples under a fixed training protocol. Code is available at https://github.com/rujiewu/GDO.

Less Data, Faster Convergence: Goal-Driven Data Optimization for Multimodal Instruction Tuning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理