MegaPairs: Massive Data Synthesis For Universal Multimodal Retrieval

📄 arXiv: 2412.14475v1 📥 PDF

作者: Junjie Zhou, Zheng Liu, Ze Liu, Shitao Xiao, Yueze Wang, Bo Zhao, Chen Jason Zhang, Defu Lian, Yongping Xiong

分类: cs.CV, cs.CL

发布日期: 2024-12-19


💡 一句话要点

MegaPairs:大规模数据合成,用于通用多模态检索

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态检索 数据合成 视觉语言模型 开放域图像 组合图像检索

📋 核心要点

  1. 多模态检索缺乏足够的训练数据,严重制约了该领域的发展。
  2. MegaPairs利用视觉语言模型和开放域图像合成大规模高质量数据,提升模型性能。
  3. 实验表明,MegaPairs显著优于使用更多数据训练的基线模型,并在多个基准测试中达到SOTA。

📝 摘要(中文)

本文提出了一种名为MegaPairs的新型数据合成方法,该方法利用视觉语言模型(VLMs)和开放域图像,并生成一个大规模的合成数据集。实验分析表明,MegaPairs能够生成高质量的数据,使得多模态检索器能够显著优于在现有数据集上使用70倍数据训练的基线模型。此外,由于MegaPairs仅依赖于通用图像语料库和开源VLMs,因此可以轻松扩展,从而持续改进检索性能。目前,我们生成了超过2600万个训练实例,并使用这些数据训练了多个不同规模的模型。这些新模型在4个流行的组合图像检索(CIR)基准测试中实现了最先进的零样本性能,并在MMEB提供的36个数据集上实现了最高的整体性能。它们还在额外的下游微调中表现出显著的性能改进。我们生成的数据集、训练良好的模型和数据合成管道将公开提供,以促进该领域的未来发展。

🔬 方法详解

问题定义:现有的多模态检索模型训练严重依赖于大规模标注数据集,而这些数据集的获取成本高昂。现有方法难以充分利用海量的开放域图像数据,导致模型泛化能力受限,尤其是在组合图像检索等任务中表现不佳。

核心思路:MegaPairs的核心在于利用视觉语言模型(VLMs)的强大能力,自动生成高质量的图像-文本对数据。通过对开放域图像进行分析,并结合VLMs生成相应的文本描述,从而构建大规模的合成数据集。这种方法避免了人工标注的成本,并能够充分利用海量的开放域数据。

技术框架:MegaPairs的数据合成流程主要包括以下几个阶段:1) 从开放域图像语料库中获取图像;2) 使用视觉语言模型(VLMs)对图像进行分析,生成候选文本描述;3) 对候选文本描述进行过滤和优化,选择高质量的文本描述作为图像的标签;4) 构建图像-文本对数据集,用于训练多模态检索模型。

关键创新:MegaPairs的关键创新在于其数据合成方法,它能够自动生成高质量的图像-文本对数据,从而避免了人工标注的成本。与现有方法相比,MegaPairs能够充分利用海量的开放域图像数据,并生成更具多样性和泛化性的训练数据。此外,MegaPairs的合成流程可以轻松扩展,从而持续改进检索性能。

关键设计:MegaPairs在数据合成过程中,使用了多种策略来保证生成数据的质量。例如,使用多个VLMs进行文本描述生成,并对生成的文本描述进行一致性检查和过滤。此外,还使用了数据增强技术来增加数据的多样性。在模型训练方面,使用了对比学习损失函数来优化模型的检索性能。具体的VLMs选择、损失函数权重等参数设置未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MegaPairs在4个流行的组合图像检索(CIR)基准测试中实现了最先进的零样本性能,并在MMEB提供的36个数据集上实现了最高的整体性能。相较于使用70倍数据训练的基线模型,性能显著提升。此外,通过下游微调,模型性能得到进一步提升,表明MegaPairs合成的数据具有良好的泛化能力。

🎯 应用场景

MegaPairs具有广泛的应用前景,可用于图像检索、视频检索、跨模态信息检索等领域。该研究成果可以降低多模态检索模型的训练成本,提高模型的泛化能力,并促进相关领域的发展。例如,可以应用于电商平台的商品检索、搜索引擎的图像搜索、智能客服的跨模态问答等场景。

📄 摘要(原文)

Despite the rapidly growing demand for multimodal retrieval, progress in this field remains severely constrained by a lack of training data. In this paper, we introduce MegaPairs, a novel data synthesis method that leverages vision language models (VLMs) and open-domain images, together with a massive synthetic dataset generated from this method. Our empirical analysis shows that MegaPairs generates high-quality data, enabling the multimodal retriever to significantly outperform the baseline model trained on 70$\times$ more data from existing datasets. Moreover, since MegaPairs solely relies on general image corpora and open-source VLMs, it can be easily scaled up, enabling continuous improvements in retrieval performance. In this stage, we produced more than 26 million training instances and trained several models of varying sizes using this data. These new models achieve state-of-the-art zero-shot performance across 4 popular composed image retrieval (CIR) benchmarks and the highest overall performance on the 36 datasets provided by MMEB. They also demonstrate notable performance improvements with additional downstream fine-tuning. Our produced dataset, well-trained models, and data synthesis pipeline will be made publicly available to facilitate the future development of this field.