DataProphet: Demystifying Supervision Data Generalization in Multimodal LLMs

📄 arXiv: 2603.19688v1 📥 PDF

作者: Xuan Qi, Luxi He, Dan Roth, Xingyu Fu

分类: cs.CL

发布日期: 2026-03-20

备注: 14 pages


💡 一句话要点

DataProphet:揭示多模态LLM监督数据泛化能力,实现免训练数据集优选。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 大语言模型 监督数据选择 迁移学习 免训练指标 数据泛化 视觉语言

📋 核心要点

  1. 现有MLLM监督数据选择依赖直观的任务相似性,但其与下游性能提升的相关性未知,存在局限性。
  2. 提出DATAPROPHET,一种免训练的指标,结合多模态困惑度、相似性和数据多样性,用于评估数据集的影响。
  3. 实验表明DATAPROPHET能有效预测数据集的迁移能力,并在监督数据选择上优于现有方法,最高提升6.9%。

📝 摘要(中文)

多模态大型语言模型(MLLM)监督数据的选择通常优先考虑与目标基准相似的数据集,例如文本密集型或视觉中心型任务。然而,这种直观的相似性是否能可靠地预测下游性能的提升仍不清楚。本文旨在初步解答一个实际问题:在不进行任何训练的情况下,我们能否评估训练数据集对目标基准的影响?为此,我们对跨越7个不同任务的14个视觉-语言数据集进行了深入的迁移分析。结果表明,直观的任务相似性是迁移能力的一个不可靠的预测指标,泛化能力更多地取决于特定的数据集,而不是其广泛的任务类别。受此发现的启发,我们提出了DATAPROPHET,一个简单有效的免训练指标,它结合了多模态困惑度、相似性和数据多样性。实验表明,DATAPROPHET产生的监督数据排名与基于实际训练后性能提升的排名高度相关,实现了86.0%的Kendall's tau。此外,DATAPROPHET能够实现更好的监督数据选择,相比均匀选择提升高达6.9%,相比最先进的基于训练的基线提升1.4%,并且比基于实验性能的oracle选择高出0.2%。我们的代码和数据将会开源。

🔬 方法详解

问题定义:现有的多模态大语言模型在选择训练数据时,通常依赖于数据集与目标任务的直观相似性,例如文本密集型或视觉中心型。然而,这种直观的相似性并不能可靠地预测下游任务的性能提升。因此,如何高效地选择合适的训练数据集,成为了一个重要的挑战。现有方法需要大量的训练实验来评估不同数据集的效果,成本高昂。

核心思路:本文的核心思路是提出一种免训练的指标,即DATAPROPHET,来预测训练数据集对目标任务的迁移能力。DATAPROPHET结合了多模态困惑度、数据集相似性和数据多样性三个方面的信息,从而在不进行实际训练的情况下,评估数据集的质量和适用性。这样设计的目的是为了降低训练成本,并提高数据集选择的效率。

技术框架:DATAPROPHET的整体框架包括以下几个主要步骤:1) 计算每个数据集的多模态困惑度,衡量数据集的语言建模能力。2) 计算数据集之间的相似性,例如通过计算数据集特征的余弦相似度。3) 评估数据集的数据多样性,例如通过计算数据集的熵。4) 将上述三个指标进行加权组合,得到DATAPROPHET的最终得分。得分越高,表示该数据集对目标任务的迁移能力越强。

关键创新:DATAPROPHET最重要的技术创新点在于它是一种免训练的指标,可以在不进行任何训练的情况下,评估数据集的迁移能力。这与现有的需要大量训练实验的方法形成了鲜明对比。此外,DATAPROPHET综合考虑了多模态困惑度、数据集相似性和数据多样性三个方面的信息,从而更全面地评估数据集的质量。

关键设计:DATAPROPHET的关键设计包括:1) 多模态困惑度的计算方法,例如可以使用预训练的多模态语言模型来计算。2) 数据集相似性的计算方法,例如可以使用预训练的视觉和语言模型提取数据集的特征,然后计算特征之间的余弦相似度。3) 数据多样性的计算方法,例如可以使用数据集的熵来衡量。4) 三个指标的加权组合方式,例如可以使用线性加权或非线性加权。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,DATAPROPHET产生的监督数据排名与基于实际训练后性能提升的排名高度相关,实现了86.0%的Kendall's tau。此外,DATAPROPHET能够实现更好的监督数据选择,相比均匀选择提升高达6.9%,相比最先进的基于训练的基线提升1.4%,并且比基于实验性能的oracle选择高出0.2%。

🎯 应用场景

该研究成果可应用于多模态大语言模型的预训练和微调阶段,帮助研究人员和工程师更高效地选择合适的训练数据集,从而提升模型的性能和泛化能力。此外,该方法还可以应用于其他机器学习领域,例如迁移学习和领域自适应。

📄 摘要(原文)

Conventional wisdom for selecting supervision data for multimodal large language models (MLLMs) is to prioritize datasets that appear similar to the target benchmark, such as text-intensive or vision-centric tasks. However, it remains unclear whether such intuitive similarity reliably predicts downstream performance gains. In this work, we take a first step toward answering a practical question: can we estimate the influence of a training dataset on a target benchmark before any training is performed? To investigate this question, we conduct an in-depth analysis of transfer across 14 vision-language datasets spanning 7 diverse tasks. Our results show that intuitive task similarity is an unreliable predictor of transferability, and that generalization depends more on the specific dataset than on its broad task category. Motivated by this finding, we propose DATAPROPHET, a simple and effective training-free metric that combines multimodal perplexity, similarity, and data diversity. Experiments show that DATAPROPHET produces supervision-data rankings that strongly correlate with rankings based on actual post-training performance gains, achieving a Kendall's tau of 86.0%. Moreover, DATAPROPHET enables better supervision-data selection, yielding up to 6.9% improvement over uniform selection, 1.4% over a state-of-the-art training-based baseline, and 0.2% above oracle selection based on experimental performance. Our code and data will be released.