Trust the Model: Compact VLMs as In-Context Judges for Image-Text Data Quality

作者: Daulet Toibazar, Kesen Wang, Sherif Mohamed, Abdulaziz Al-Badawi, Abdulrahman Alfulayt, Pedro J. Moreno

分类: cs.CV, cs.AI

发布日期: 2025-07-27

🔗 代码/项目: GITHUB

💡 一句话要点

提出一种基于小型VLM的图像-文本数据质量过滤框架，提升训练数据质量。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 数据过滤 数据质量 图像-文本对齐 小型VLM

📋 核心要点

现有视觉语言模型依赖大量数据，但数据质量参差不齐，高质量数据往往能带来更好的模型性能。
本文提出一种基于小型VLM的数据过滤框架，利用其评估图像-文本对齐和质量的能力，筛选高质量数据。
实验表明，经过该框架过滤的数据集，训练出的模型性能可与甚至超过使用大规模噪声数据训练的模型。

📝 摘要（中文）

本文提出了一种精简的数据过滤框架，该框架利用在高质量图像-文本数据集上微调的小型视觉语言模型（VLM），根据标题、图像质量以及图像-文本对齐程度来评估和过滤潜在的训练样本。与以往在大型VLM上添加辅助过滤模块的方法不同，本文方法仅利用小型VLM固有的评估能力，无需额外模块并减少了训练开销。该轻量级模型能有效过滤掉不准确、嘈杂的网络数据，从而提高图像-文本对齐性和标题的语言流畅性。实验结果表明，使用本文小型VLM进行高精度过滤后的数据集，其性能与通过高容量网络爬取获得的大型但嘈杂的数据集相当，甚至超过后者。因此，本文方法为构建高质量视觉语言训练语料库提供了一种轻量级但稳健的解决方案。

🔬 方法详解

问题定义：现有视觉语言模型（VLM）的训练依赖于大规模的图像-文本数据集，但从网络上获取的数据通常包含大量的噪声和低质量样本，例如图像与文本描述不匹配、文本描述不流畅等。直接使用这些数据训练VLM会导致模型性能下降。以往的方法通常是在大型VLM的基础上添加额外的过滤模块，增加了计算开销和模型复杂度。

核心思路：本文的核心思路是利用一个专门训练的小型VLM作为图像-文本数据质量的评估器。该小型VLM通过在高质量的图像-文本数据集上进行微调，学习到图像和文本之间的对齐关系以及文本的语言流畅性。然后，利用该VLM对潜在的训练样本进行评分，过滤掉低质量的样本。这种方法避免了在大型VLM上添加额外模块，降低了计算成本。

技术框架：该框架主要包含以下几个步骤：1）选择一个预训练的VLM模型，并将其规模缩小以降低计算成本。2）使用高质量的图像-文本数据集对小型VLM进行微调，使其具备评估图像-文本对齐和文本质量的能力。3）使用微调后的VLM对潜在的训练样本进行评分。4）根据设定的阈值，过滤掉评分低于阈值的样本。5）使用过滤后的高质量数据集训练最终的VLM模型。

关键创新：本文最重要的创新点在于使用一个专门训练的小型VLM作为数据质量评估器，而不是在大型VLM上添加额外的过滤模块。这种方法不仅降低了计算成本，还提高了过滤效率。与现有方法的本质区别在于，本文方法充分利用了VLM本身的多模态理解能力，将其作为数据质量评估的工具。

关键设计：在训练小型VLM时，使用了对比学习损失函数，鼓励模型学习图像和文本之间的对齐关系。同时，使用了语言模型损失函数，鼓励模型生成流畅的文本描述。在过滤数据时，根据VLM的输出概率分布，计算图像和文本之间的相似度得分，并将其作为数据质量的评估指标。具体参数设置未知。

🖼️ 关键图片

📊 实验亮点

实验结果表明，使用本文方法过滤后的数据集训练的VLM模型，在图像-文本检索和图像描述生成等任务上取得了与使用大规模噪声数据训练的模型相当甚至更好的性能。具体性能提升幅度未知，但证明了该方法在提升数据质量方面的有效性。该方法提供了一种轻量级且高效的数据过滤方案。

🎯 应用场景

该研究成果可广泛应用于视觉语言模型的训练数据构建，尤其是在数据获取成本高昂或数据质量难以保证的场景下。例如，在医疗影像分析、自动驾驶等领域，高质量的图像-文本数据对于训练可靠的模型至关重要。该方法可以有效提升训练数据的质量，从而提高模型的性能和泛化能力，加速相关领域的应用落地。

📄 摘要（原文）

Vision-language models (VLMs) extend the conventional large language models by integrating visual data, enabling richer multimodal reasoning and significantly broadens the practical applications of AI. However, including visual inputs also brings new challenges in maintaining data quality. Empirical evidence consistently shows that carefully curated and representative training examples often yield superior results compared to simply increasing the quantity of data. Inspired by this observation, we introduce a streamlined data filtration framework that employs a compact VLM, fine-tuned on a high-quality image-caption annotated dataset. This model effectively evaluates and filters potential training samples based on caption and image quality and alignment. Unlike previous approaches, which typically add auxiliary filtration modules on top of existing full-scale VLMs, our method exclusively utilizes the inherent evaluative capability of a purpose-built small VLM. This strategy eliminates the need for extra modules and reduces training overhead. Our lightweight model efficiently filters out inaccurate, noisy web data, improving image-text alignment and caption linguistic fluency. Experimental results show that datasets underwent high-precision filtration using our compact VLM perform on par with, or even surpass, larger and noisier datasets gathered through high-volume web crawling. Thus, our method provides a lightweight yet robust solution for building high-quality vision-language training corpora. \ \textbf{Availability and implementation:} Our compact VLM filtration model, training data, utility scripts, and Supplementary data (Appendices) are freely available at https://github.com/daulettoibazar/Compact_VLM_Filter.

Trust the Model: Compact VLMs as In-Context Judges for Image-Text Data Quality

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理