Beyond Filtering: Adaptive Image-Text Quality Enhancement for MLLM Pretraining

📄 arXiv: 2410.16166v1 📥 PDF

作者: Han Huang, Yuqi Huo, Zijia Zhao, Haoyu Lu, Shu Wu, Bingning Wang, Qiang Liu, Weipeng Chen, Liang Wang

分类: cs.CV, cs.CL

发布日期: 2024-10-21

🔗 代码/项目: GITHUB


💡 一句话要点

提出自适应图像-文本质量增强器AITQE,用于提升多模态大语言模型预训练数据质量。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 大语言模型 图像文本对齐 数据质量增强 负样本学习

📋 核心要点

  1. 现有基于过滤的数据增强方法,因语义对齐不足,导致大量高质量图像数据被丢弃,降低了数据利用率。
  2. AITQE通过文本重写和负样本学习,动态评估并增强图像-文本对的质量,提升数据质量。
  3. 实验表明,AITQE在多个基准测试中优于现有方法,能有效利用原始数据并随数据量扩展。

📝 摘要(中文)

多模态大语言模型(MLLM)通过整合视觉和文本模态取得了显著进展。训练MLLM的一个关键因素是多模态预训练数据集中图像-文本对的质量。然而,基于过滤的数据质量增强范式通常由于图像和文本之间语义对齐不足而丢弃大量高质量图像数据,导致数据利用率和可扩展性低下。本文提出了自适应图像-文本质量增强器(AITQE),该模型动态评估和增强图像-文本对的质量。AITQE采用文本重写机制处理低质量的图像-文本对,并结合负样本学习策略,通过在训练期间整合精心挑选的低质量样本来提高评估能力。与显著改变文本分布的先前方法不同,我们的方法以最小的文本调整来保持数据量,同时提高质量。实验结果表明,AITQE在各种基准测试中超越了现有方法,有效地利用了原始数据,并随着数据量的增加而有效地扩展。我们希望我们的工作能够启发未来的工作。

🔬 方法详解

问题定义:多模态大语言模型预训练依赖于高质量的图像-文本对。然而,现有方法主要依赖于过滤,即直接丢弃质量不佳的样本。这种方法的痛点在于,即使图像质量很高,如果图像和文本的语义对齐不足,也会被丢弃,造成数据浪费,限制了模型性能的提升和扩展性。

核心思路:AITQE的核心思路是避免直接丢弃数据,而是通过自适应地增强图像-文本对的质量来提高数据利用率。具体来说,对于低质量的图像-文本对,AITQE会尝试重写文本,使其与图像内容更好地对齐。同时,通过负样本学习,提高模型区分高质量和低质量样本的能力。

技术框架:AITQE包含两个主要模块:图像-文本质量评估器和文本重写器。首先,质量评估器判断图像-文本对的质量。如果质量低于阈值,则文本重写器会生成新的文本描述,以更好地匹配图像内容。为了训练质量评估器,AITQE采用了负样本学习策略,即在训练数据中加入故意构造的低质量样本,使模型能够更好地区分高质量和低质量的图像-文本对。

关键创新:AITQE的关键创新在于其自适应的质量增强机制,它避免了传统过滤方法中对数据的直接丢弃,而是通过文本重写来提高数据质量。此外,负样本学习策略有效地提升了质量评估器的性能,使其能够更准确地判断图像-文本对的质量。与现有方法相比,AITQE在保持数据量的同时,显著提高了数据质量。

关键设计:AITQE的文本重写器可以使用各种文本生成模型,例如基于Transformer的模型。负样本可以通过多种方式生成,例如随机替换文本中的单词或使用不相关的文本描述图像。损失函数通常包括一个用于训练文本重写器的生成损失和一个用于训练质量评估器的分类损失。具体的参数设置和网络结构需要根据具体的应用场景进行调整。

🖼️ 关键图片

img_0

📊 实验亮点

实验结果表明,AITQE在多个图像-文本基准测试中超越了现有方法。例如,在某个数据集上,使用AITQE预训练的MLLM在图像描述任务上的性能提升了X%。此外,AITQE能够有效地利用原始数据,并且随着数据量的增加,性能提升更加显著,验证了其良好的可扩展性。

🎯 应用场景

AITQE可应用于各种多模态大语言模型的预训练,尤其是在数据质量参差不齐的情况下。通过提高预训练数据的质量,可以提升MLLM在图像描述、视觉问答等任务上的性能。该研究对于提升多模态模型的泛化能力和鲁棒性具有重要意义,并有望推动多模态人工智能的发展。

📄 摘要(原文)

Multimodal large language models (MLLMs) have made significant strides by integrating visual and textual modalities. A critical factor in training MLLMs is the quality of image-text pairs within multimodal pretraining datasets. However, $\textit {de facto}$ filter-based data quality enhancement paradigms often discard a substantial portion of high-quality image data due to inadequate semantic alignment between images and texts, leading to inefficiencies in data utilization and scalability. In this paper, we propose the Adaptive Image-Text Quality Enhancer (AITQE), a model that dynamically assesses and enhances the quality of image-text pairs. AITQE employs a text rewriting mechanism for low-quality pairs and incorporates a negative sample learning strategy to improve evaluative capabilities by integrating deliberately selected low-quality samples during training. Unlike prior approaches that significantly alter text distributions, our method minimally adjusts text to preserve data volume while enhancing quality. Experimental results demonstrate that AITQE surpasses existing methods on various benchmark, effectively leveraging raw data and scaling efficiently with increasing data volumes. We hope our work will inspire future works. The code and model are available at: https://github.com/hanhuang22/AITQE.