Does the Question Really Matter? Training-Free Data Selection for Vision-Language SFT

📄 arXiv: 2603.09715v1 📥 PDF

作者: Peng Sun, Huawen Shen, Yi Ban, Tianfan Fu, Yanbo Wang, Yuqiang Li

分类: cs.AI

发布日期: 2026-03-10


💡 一句话要点

提出CVS:一种免训练的视觉-语言SFT数据选择方法,提升多模态推理能力。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言模型 数据选择 指令调优 多模态推理 免训练 知识蒸馏 大模型 视觉问答

📋 核心要点

  1. 现有视觉-语言模型训练依赖大量数据,但其中许多样本无需跨模态推理即可解答,影响模型学习。
  2. CVS方法通过评估引入问题前后答案有效性的变化,筛选真正需要视觉-语言联合推理的样本。
  3. 实验表明,CVS在减少计算成本的同时,显著提升了模型性能,并在不同数据集上表现出鲁棒性。

📝 摘要(中文)

视觉指令调优对于提升视觉-语言大模型(VLLM)至关重要。然而,许多样本可以通过语言模式或常识捷径解决,而无需真正的跨模态推理,这限制了多模态学习的有效性。现有的数据选择方法通常依赖于代价高昂的代理模型训练,并且侧重于难度或多样性,而未能捕捉样本对视觉-语言联合推理的真正贡献。本文提出了CVS,一种免训练的数据选择方法,其核心思想是:对于高质量的多模态样本,引入问题应该显著改变模型对给定图像的答案有效性的评估。CVS利用一个冻结的VLLM作为评估器,并测量在有和没有问题条件下的答案有效性差异,从而能够识别需要视觉-语言联合推理的样本,同时过滤语义冲突噪声。在Vision-Flan和The Cauldron上的实验表明,CVS在数据集上取得了可靠的性能。在Vision-Flan上,仅使用10%和15%的数据时,CVS分别优于全数据训练3.5%和4.8%,并且在高度异构的Cauldron数据集上保持稳健。此外,与COINCIDE和XMAS相比,CVS降低了17.3%和44.4%的计算成本。

🔬 方法详解

问题定义:现有视觉-语言模型(VLLM)的训练依赖于大量的视觉指令数据。然而,许多数据样本可以通过简单的语言模式或常识知识来解决,而不需要真正的视觉和语言之间的联合推理。这导致模型学习效率低下,并且难以泛化到更复杂的任务中。现有的数据选择方法通常需要训练代理模型,计算成本高昂,并且侧重于样本的难度或多样性,而忽略了样本对于视觉-语言联合推理的实际贡献。

核心思路:CVS的核心思想是,对于高质量的视觉-语言样本,引入问题应该显著改变模型对答案有效性的评估。也就是说,如果一个样本仅仅依靠图像或者仅仅依靠问题就可以得到正确的答案,那么这个样本对于训练视觉-语言模型的价值就相对较低。CVS通过衡量在有和没有问题条件下的答案有效性差异,来判断一个样本是否需要视觉和语言之间的联合推理。

技术框架:CVS方法主要包含以下几个步骤:1. 使用一个预训练的、冻结的VLLM作为评估器。2. 对于每个数据样本,分别计算在有和没有问题条件下的答案有效性得分。3. 计算两个得分之间的差异,作为该样本的CVS得分。4. 根据CVS得分对数据样本进行排序,选择得分最高的样本用于训练。

关键创新:CVS的关键创新在于提出了一种免训练的数据选择方法,该方法能够有效地识别需要视觉-语言联合推理的样本,并过滤掉语义冲突噪声。与现有的数据选择方法相比,CVS不需要训练代理模型,因此计算成本更低。此外,CVS直接衡量样本对于视觉-语言联合推理的贡献,而不是仅仅关注样本的难度或多样性。

关键设计:CVS使用预训练的VLLM的logits输出来计算答案有效性得分。具体来说,CVS计算正确答案的logits得分与所有答案的logits得分之和的比率,作为答案有效性得分。CVS使用一个阈值来过滤掉语义冲突噪声。如果一个样本在有和没有问题条件下的答案有效性得分都很低,那么这个样本就被认为是语义冲突噪声,并被过滤掉。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,CVS在Vision-Flan数据集上,仅使用10%和15%的数据,分别优于全数据训练3.5%和4.8%。在The Cauldron数据集上,CVS也表现出良好的鲁棒性。此外,与COINCIDE和XMAS等现有方法相比,CVS降低了17.3%和44.4%的计算成本,实现了性能和效率的双重提升。

🎯 应用场景

CVS方法可应用于各种视觉-语言模型的预训练和微调阶段,尤其适用于数据量有限或计算资源受限的场景。该方法能够有效提升模型的多模态推理能力,改善模型在视觉问答、图像描述、视觉对话等任务上的表现。未来,CVS可以扩展到其他模态组合,例如音频-语言、视频-语言等。

📄 摘要(原文)

Visual instruction tuning is crucial for improving vision-language large models (VLLMs). However, many samples can be solved via linguistic patterns or common-sense shortcuts, without genuine cross-modal reasoning, limiting the effectiveness of multimodal learning. Prior data selection methods often rely on costly proxy model training and focus on difficulty or diversity, failing to capture a sample's true contribution to vision-language joint reasoning. In this paper, we propose CVS, a training-free data selection method based on the insight that, for high-quality multimodal samples, introducing the question should substantially alter the model's assessment of answer validity given an image. CVS leverages a frozen VLLM as an evaluator and measures the discrepancy in answer validity with and without conditioning on the question, enabling the identification of samples that require vision-language joint reasoning while filtering semantic-conflict noise. Experiments on Vision-Flan and The Cauldron show that CVS achieves solid performance across datasets. On Vision-Flan, CVS outperforms full-data training by 3.5% and 4.8% using only 10% and 15% of the data, respectively, and remains robust on the highly heterogeneous Cauldron dataset. Moreover, CVS reduces computational cost by 17.3% and 44.4% compared to COINCIDE and XMAS.