Once-For-All: A Train-Once and Select-Anytime Framework for Multimodal Instruction Tuning

📄 arXiv: 2605.26761v1 📥 PDF

作者: Mingkang Dong, Hongyi Cai, Xiwen Lei, Jie Li, Tao Zhang, Muxin Pu

分类: cs.CV

发布日期: 2026-05-26

备注: 15 pages, 6 figures. Mingkang Dong and Hongyi Cai contributed equally to this work. Muxin Pu is the corresponding author


💡 一句话要点

提出OFA框架,通过一次训练即可为多模态指令调优选择任意数据集,提升训练效率。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态指令调优 数据选择 视觉语言模型 可迁移学习 CLIP特征空间

📋 核心要点

  1. 现有数据选择方法需针对特定模型或数据集重复计算选择标准,成本高昂且缺乏通用性。
  2. OFA框架通过在冻结的CLIP空间中聚类指令,训练一个可迁移的选择器,一次训练即可应用于不同数据集和模型。
  3. 实验表明,OFA仅使用15%的数据即可达到接近完整数据的性能,且在未见数据集上表现优异,验证了其泛化能力。

📝 摘要(中文)

多模态指令调优是调整视觉语言模型(VLMs)的事实标准方法,但指令数据高度冗余,使得数据选择对训练效率至关重要。现有方法从特定模型或数据集导出选择信号,因此每当目标模型或候选池发生变化时,都必须从头重新计算标准,成本高昂。为了解决这个问题,我们提出了OFA,一个数据选择框架,它训练一个可重用的选择器一次,并将其应用于任何数据集或模型,而无需重新计算。OFA在冻结的CLIP空间中对多模态指令进行聚类,从聚类结构中导出伪标签,并仅用几个epoch训练一个轻量级选择器;选择该选择器最不确定的样本作为信息量最大的样本。一旦训练完成,冻结的选择器可以直接跨数据集和模型规模转移。选择器在LLaVA-665K上训练一次,并应用于LLaVA-665K本身,以及未经训练的Vision-Flan-186K。仅选择15%的数据,OFA在10个下游基准测试中实现了完整数据性能的98.3%;在较小的Vision-Flan-186K上,转移的选择器超过了完整数据训练10.6%,证实了学习到的信号可以推广到选择器训练期间从未见过的数据集。相同的选择子集使Qwen2.5-VL-3B和LLaVA-v1.5-7B的VLM受益,而无需每个模型重新计算,从而将选择与目标模型分离。这些结果表明,单个可转移的选择器为高效的多模态指令调优提供了一个有效且可重用的解决方案。

🔬 方法详解

问题定义:现有方法在多模态指令调优中,数据选择过程依赖于特定模型或数据集,每次更换目标模型或数据集时,都需要重新计算选择标准,导致计算成本高昂,效率低下。这些方法缺乏通用性和可重用性,难以适应快速变化的视觉语言模型发展。

核心思路:OFA的核心思路是训练一个与模型无关、可迁移的数据选择器。通过在共享的、语义对齐的CLIP特征空间中对多模态指令进行聚类,利用聚类结构生成伪标签,并训练一个轻量级的选择器来预测这些伪标签。选择器选择那些预测置信度低的样本,认为这些样本包含更多信息,从而实现高效的数据选择。

技术框架:OFA框架主要包含以下几个阶段:1) 特征提取:使用预训练的CLIP模型提取多模态指令的特征,形成统一的特征表示。2) 聚类:在CLIP特征空间中对指令进行聚类,例如使用K-means算法。3) 伪标签生成:根据聚类结果,为每个指令分配一个伪标签,表示其所属的类别。4) 选择器训练:训练一个轻量级的选择器,例如一个小型神经网络,以预测指令的伪标签。5) 数据选择:使用训练好的选择器对候选数据集中的指令进行预测,选择那些预测置信度低的指令作为训练数据。

关键创新:OFA的关键创新在于其选择器的可迁移性和与模型无关性。通过在冻结的CLIP特征空间中进行聚类和训练选择器,OFA将数据选择过程与特定的视觉语言模型解耦,使得训练好的选择器可以应用于不同的模型和数据集,而无需重新训练。这种方法显著提高了数据选择的效率和通用性。

关键设计:OFA的关键设计包括:1) 使用冻结的CLIP模型作为特征提取器,保证特征表示的稳定性和通用性。2) 使用聚类算法生成伪标签,避免了人工标注的成本。3) 训练轻量级的选择器,降低了计算复杂度。4) 选择预测置信度低的样本,认为这些样本包含更多信息,从而提高训练效率。具体参数设置和损失函数等细节在论文中可能未详细描述,属于未知信息。

🖼️ 关键图片

fig_0

📊 实验亮点

OFA框架在LLaVA-665K数据集上训练的选择器,仅使用15%的数据,即可在10个下游基准测试中达到完整数据性能的98.3%。更重要的是,该选择器无需重新训练,即可直接应用于未见过的Vision-Flan-186K数据集,并超越了完整数据训练10.6%。此外,相同的选择子集可以提升Qwen2.5-VL-3B和LLaVA-v1.5-7B等不同模型的性能。

🎯 应用场景

OFA框架可广泛应用于多模态指令调优领域,尤其适用于资源受限的场景。它可以帮助研究人员和开发者高效地选择最具信息量的训练数据,从而降低训练成本,加速模型迭代,并提升视觉语言模型的性能。该方法还可应用于其他数据选择任务,例如主动学习和数据增强。

📄 摘要(原文)

Multimodal instruction tuning is the de facto recipe for adapting vision language models (VLMs), yet instruction data are highly redundant, making data selection critical for training efficiency. Existing methods derive selection signals from a specific model or dataset, so whenever the target model or candidate pool changes, the criteria must be recomputed from scratch at substantial cost. To address this, we propose OFA, a data selection framework that trains a reusable selector once and applies it to any dataset or model without recomputation. OFA clusters multimodal instructions in a frozen CLIP space, derives pseudo labels from the cluster structure, and trains a lightweight selector for only a few epochs; samples on which this selector is least confident are selected as the most informative. Once trained, the frozen selector transfers directly across datasets and model scales. The selector is trained once on LLaVA-665K and applied both to LLaVA-665K itself and, without any retraining, to the unseen Vision-Flan-186K. Selecting only 15% of the data, OFA achieves 98.3% of full data performance across 10 downstream benchmarks; on the smaller Vision-Flan-186K, the transferred selector surpasses full data training by 10.6%, confirming that the learned signal generalizes to datasets never seen during selector training. The same selected subsets benefit VLMs at both Qwen2.5-VL-3B and LLaVA-v1.5-7B without per model recomputation, decoupling selection from the target model. These results demonstrate that a single, transferable selector provides an effective and reusable solution for efficient multimodal instruction tuning.