Train a Unified Multimodal Data Quality Classifier with Synthetic Data

作者: Weizhi Wang, Rongmei Lin, Shiyang Li, Colin Lockard, Ritesh Sarkhel, Sanket Lokegaonkar, Jingbo Shang, Xifeng Yan, Nasser Zalmout, Xian Li

分类: cs.CV, cs.CL

发布日期: 2025-10-16

备注: EMNLP 2025 Findings

💡 一句话要点

提出UniFilter：一种基于合成数据的统一多模态数据质量分类器

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 数据质量 数据过滤 合成数据 大型语言模型 预训练 图像文本 交错文档

📋 核心要点

高质量多模态数据过滤是MLLM预训练的关键，但现有方法在处理图像-文本交错文档数据时存在不足。
UniFilter通过半合成方法生成多质量级别的数据，用于训练统一的多模态数据质量分类器，有效过滤数据。
实验表明，使用UniFilter过滤的数据预训练的MLLM在零样本推理和上下文学习方面显著提升。

📝 摘要（中文）

多模态大型语言模型(MLLM)持续地在图像-文本描述数据和交错文档数据的混合数据上进行预训练，然而，针对图像-文本交错文档数据的高质量数据过滤研究不足。我们提出训练一个高效的MLLM，作为一个统一的多模态数据质量分类器，以过滤高质量的图像-文本描述和交错数据(UniFilter)。为了解决收集多样化标注多模态数据的挑战，我们引入了一种半合成方法，该方法利用现成的原始图像，并生成跨四个质量级别的相应文本。这种方法能够有效地为描述和交错文档数据创建样本-分数对，以训练UniFilter。我们将UniFilter应用于从DataComp描述数据集和OBELICS图像-文本交错数据集筛选高质量的描述数据和交错数据。在过滤后的数据上预训练的MLLM相比于在基线过滤数据上训练的MLLM，表现出显著增强的能力，实现了更强的零样本推理和上下文学习能力。在视觉监督微调后，这些UniFilter诱导的MLLM在各种基准测试上实现了更强的性能，突出了高质量多模态预训练的下游优势。我们将用于训练UniFilter的合成训练数据、UniFilter模型检查点以及由UniFilter策划的高质量交错文档子集OBELICS-HQ发布给社区，以供重现和进一步开发。

🔬 方法详解

问题定义：论文旨在解决多模态大型语言模型（MLLM）预训练过程中，图像-文本交错文档数据质量不高的问题。现有方法缺乏有效的数据过滤机制，导致预训练的MLLM性能受限。高质量的多模态数据难以获取，标注成本高昂，成为一个主要痛点。

核心思路：论文的核心思路是训练一个统一的多模态数据质量分类器（UniFilter），用于区分高质量和低质量的图像-文本数据，包括图像-文本描述数据和交错文档数据。通过半合成数据生成方法，降低数据标注成本，并为UniFilter提供充足的训练数据。

技术框架：UniFilter的训练流程主要包括以下几个阶段：1) 利用现成的原始图像，通过半合成方法生成不同质量级别的图像-文本数据对，包括描述数据和交错文档数据。2) 使用生成的合成数据训练UniFilter，使其能够对多模态数据的质量进行评分。3) 将UniFilter应用于大规模多模态数据集（如DataComp和OBELICS），过滤出高质量的数据子集。4) 使用过滤后的高质量数据预训练MLLM，并在下游任务上进行微调。

关键创新：论文的关键创新在于提出了一种半合成数据生成方法，用于创建多质量级别的图像-文本数据。这种方法避免了人工标注的成本，并能够生成足够多的训练数据，用于训练UniFilter。此外，UniFilter的设计使其能够同时处理图像-文本描述数据和交错文档数据，具有更强的通用性。

关键设计：半合成数据生成方法是关键设计之一。具体来说，论文利用现有的图像数据，并使用不同的文本生成策略（例如，使用不同的语言模型或不同的解码策略）生成对应于不同质量级别的文本描述。例如，高质量的文本描述可能包含更详细、更准确的信息，而低质量的文本描述可能包含错误、不相关的信息或语法错误。损失函数的设计目标是使UniFilter能够准确地预测多模态数据的质量得分，从而区分高质量和低质量的数据。

📊 实验亮点

实验结果表明，使用UniFilter过滤后的数据预训练的MLLM在零样本推理和上下文学习能力上显著提升。经过视觉监督微调后，这些MLLM在各种基准测试上取得了更强的性能，验证了高质量多模态预训练的有效性。UniFilter能够有效提升MLLM的下游任务性能。

🎯 应用场景

该研究成果可广泛应用于多模态大型语言模型的预训练数据清洗、数据增强和模型优化。通过UniFilter过滤高质量数据，能够提升MLLM在图像理解、文本生成、视觉问答等任务上的性能，并可应用于智能客服、内容创作、教育等领域。

📄 摘要（原文）

The Multimodal Large Language Models (MLLMs) are continually pre-trained on a mixture of image-text caption data and interleaved document data, while the high-quality data filtering towards image-text interleaved document data is under-explored. We propose to train an efficient MLLM as a Unified Mulitmodal Data Quality Classifier to Filter both high-quality image-text caption and interleaved data (UniFilter). To address the challenge of collecting diverse labeled multimodal data, we introduce a semi-synthetic approach that leverages readily available raw images and generates corresponding text across four quality levels. This method enables efficient creation of sample-score pairs for both caption and interleaved document data to train UniFilter. We apply UniFilter to curate high-quality caption data from DataComp caption dataset and interleaved data from the OBELICS image-text interleaved dataset. MLLMs pre-trained on the filtered data demonstrate significantly enhanced capabilities compared to those trained on baseline-filtered data, achieving stronger zero-shot reasoning and in-context learning capabilities. After visual supervised fine-tuning, these UniFilter-induced MLLMs achieve stronger performance on various benchmarks, highlighting the downstream benefits of high-quality multimodal pre-training. We release the synthetic training data used for training UniFilter, the UniFilter model checkpoints, and the high-quality interleaved document subset OBELICS-HQ, curated by UniFilter, to the community for reproduction and further development.

Train a Unified Multimodal Data Quality Classifier with Synthetic Data

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册