Efficient Data Selection for Multimodal Models via Incremental Optimization Utility

📄 arXiv: 2605.07488v1 📥 PDF

作者: Jinhao Jing, Qiannian Zhao, Chao Huang, Zhan Su

分类: cs.AI, cs.LG

发布日期: 2026-05-08


💡 一句话要点

提出One-Step-Train (OST)框架,通过增量优化效用评估实现多模态模型高效数据筛选

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态模型 数据筛选 增量优化 指令微调 计算效率 负迁移抑制

📋 核心要点

  1. 现有数据筛选方法(如LLM-as-a-Judge)计算开销巨大且缺乏明确的优化目标,难以在大规模数据集上高效应用。
  2. OST框架通过在轻量级代理模型上执行单步梯度更新,量化每个样本对模型性能的边际贡献,实现数据效用的精准排序。
  3. 实验证明OST在显著降低训练成本的同时,在多模态数学推理任务中大幅超越了全量微调及启发式筛选基线。

📝 摘要(中文)

大型多模态模型(LMMs)的扩展受到合成数据质量与数量权衡的制约。现有的“LLM-as-a-Judge”方法虽有效,但存在计算成本高昂且缺乏可解释性的问题。为弥补这一差距,本文提出了One-Step-Train (OST)框架,将数据筛选重构为增量优化效用排序问题。OST不依赖语义启发式规则,而是通过轻量级代理模型上的模拟单步更新来估计每个样本的边际效用。在Qwen系列模型的多模态数学推理基准测试中,OST实现了帕累托最优效率。实验表明,仅使用前50%的子集,OST在降低43%训练成本的同时,性能超越了LLM-as-a-Judge基线1.8个点。在固定计算预算下,使用前20%子集比基线高出5.6个点,并有效识别并剔除了噪声样本,克服了复杂推理任务中的负迁移现象。

🔬 方法详解

问题定义:论文旨在解决大规模多模态模型微调中数据质量参差不齐的问题。现有方法如LLM-as-a-Judge计算成本极高,而基于启发式规则的方法(如DEITA)难以捕捉模型训练过程中的动态优化需求,导致数据筛选与模型性能提升之间存在鸿沟。

核心思路:论文将数据筛选转化为“增量优化效用”(Incremental Optimization Utility)排序问题。其核心逻辑是:如果一个样本能使模型在单步梯度更新后在验证集上产生最大的损失下降,则该样本具有高价值。这种方法直接将数据选择与模型优化目标对齐。

技术框架:OST框架包含三个阶段:首先,构建一个轻量级的代理模型(Proxy Model);其次,对候选数据集中的每个样本进行模拟的单步梯度更新;最后,根据更新后模型在验证集上的性能增益对样本进行评分与筛选,保留高价值数据进行最终训练。

关键创新:最重要的创新在于引入了基于梯度更新的效用评估机制,替代了传统的语义评分。这种方法不仅具备数学上的可解释性,还能有效识别并剔除导致负迁移的噪声或有毒样本。

关键设计:该方法利用轻量级代理模型进行计算,极大降低了评估成本。通过计算样本在代理模型上的梯度方向与验证集损失函数梯度的内积(或直接评估损失下降量),实现对样本贡献度的量化,从而在有限算力下实现最优子集选择。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

OST在Qwen系列模型上表现卓越:在仅使用50%数据的情况下,训练成本降低43%,性能较LLM-as-a-Judge提升1.8点;在固定算力预算下,使用20%子集比基线提升5.6点,较全量微调(Full-SFT)提升8.8点。该方法成功识别并剔除噪声,有效解决了复杂推理中的负迁移问题。

🎯 应用场景

该方法适用于大规模多模态模型(LMMs)的指令微调阶段,特别是在合成数据质量不均、计算资源受限的场景下。它能够显著降低训练成本,提升模型在复杂推理任务(如数学、代码、逻辑分析)中的表现,对构建高效、鲁棒的通用人工智能系统具有重要价值。

📄 摘要(原文)

The scaling of Large Multimodal Models (LMMs) is constrained by the quality-quantity trade-off inherent in synthetic data. Previous approaches, such as LLM-as-a-Judge, have proven their effectiveness in addressing this but suffer from prohibitive computational costs and lack of interpretability. To bridge this gap, we propose One-Step-Train (OST), a framework that reformulates data selection as an incremental optimization utility ranking problem. Instead of relying on semantic heuristics, OST estimates the marginal utility of each sample via a simulated single-step update on a lightweight proxy. Experiments on the Qwen series across multimodal mathematical reasoning benchmarks demonstrate that OST achieves Pareto-optimal efficiency. By selecting the top-50 subset, OST reduces training costs by 43% (and total time consumption by 17) while surpassing the strong LLM-as-a-Judge baseline by 1.8 points. Furthermore, under a fixed compute budget, our method using only the top-20 subset achieves a 5.6 point gain over LLM-as-a-Judge, improves upon heuristic scoring baselines like DEITA, and outperforms the Full-SFT baseline by 8.8 points. Notably, while Full-SFT suffers from performance degradation due to noise, our optimization-grounded approach effectively identifies toxic samples, successfully reversing the negative transfer frequently observed in complex reasoning tasks.