Infinity-MM: Scaling Multimodal Performance with Large-Scale and High-Quality Instruction Data

📄 arXiv: 2410.18558v2 📥 PDF

作者: Shuhao Gu, Jialing Zhang, Siyuan Zhou, Kevin Yu, Zhaohu Xing, Liangdong Wang, Zhou Cao, Jintao Jia, Zhuoyi Zhang, Yixuan Wang, Zhenchong Hu, Bo-Wen Zhang, Jijie Li, Dong Liang, Yingli Zhao, Songjing Wang, Yulong Ao, Yiming Ju, Huanhuan Ma, Xiaotong Li, Haiwen Diao, Yufeng Cui, Xinlong Wang, Yaoqi Liu, Fangxiang Feng, Guang Liu

分类: cs.CL

发布日期: 2024-10-24 (更新: 2025-01-06)

🔗 代码/项目: HUGGINGFACE


💡 一句话要点

Infinity-MM:通过大规模高质量指令数据提升多模态模型性能

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 视觉-语言模型 指令数据 数据合成 大规模数据集

📋 核心要点

  1. 现有开源多模态指令数据规模和质量不足,限制了视觉-语言模型(VLM)的性能提升,与闭源模型存在差距。
  2. 提出Infinity-MM数据集,包含超过4000万样本,并设计基于标签系统的合成指令生成方法,以扩展高质量数据。
  3. 训练了20亿参数的Aquila-VL-2B模型,在同等规模模型中取得了领先的性能,验证了数据集的有效性。

📝 摘要(中文)

近年来,视觉-语言模型(VLMs)在多模态任务中取得了显著进展,而多模态指令数据是增强VLM能力的基础。尽管目前存在一些开源多模态数据集,但开源指令数据的规模和质量的局限性阻碍了在这些数据集上训练的VLM的性能,导致与在闭源数据上训练的模型相比存在显著差距。为了应对这一挑战,我们推出了大规模多模态指令数据集Infinity-MM。我们收集了现有的多模态指令数据集并进行了统一的预处理,从而得到了一个超过4000万个样本的数据集,确保了多样性和准确性。此外,为了实现指令数据的规模化扩展并支持高质量数据的持续获取,我们提出了一种基于标签系统和开源VLM的合成指令生成方法。通过建立不同类型的图像和相关指令类型之间的对应关系,该方法可以在数据合成过程中提供必要的指导。利用这些高质量数据,我们训练了一个20亿参数的视觉-语言模型Aquila-VL-2B,该模型在同等规模的模型中实现了最先进(SOTA)的性能。数据可在https://huggingface.co/datasets/BAAI/Infinity-MM 获取。

🔬 方法详解

问题定义:论文旨在解决开源多模态指令数据规模和质量不足的问题,现有开源数据集训练的VLM性能与闭源模型存在显著差距。现有方法难以有效扩展高质量的指令数据,限制了VLM的性能提升。

核心思路:论文的核心思路是构建一个大规模、高质量的多模态指令数据集Infinity-MM,并通过合成数据生成方法来持续扩展数据集。通过建立图像类型和指令类型之间的对应关系,指导数据合成过程,确保生成数据的质量和多样性。

技术框架:整体框架包含数据收集与预处理、合成数据生成和模型训练三个主要阶段。数据收集与预处理阶段整合了现有的开源多模态指令数据集,并进行统一的预处理。合成数据生成阶段利用标签系统和开源VLM生成新的指令数据。模型训练阶段使用Infinity-MM数据集训练视觉-语言模型Aquila-VL-2B。

关键创新:论文的关键创新在于提出了基于标签系统的合成指令生成方法。该方法通过建立图像类型和指令类型之间的对应关系,为数据合成过程提供指导,从而生成高质量的合成数据。这种方法能够有效扩展指令数据的规模,并保证数据的质量和多样性。

关键设计:标签系统是关键设计之一,它定义了图像的类型和对应的指令类型,用于指导合成数据的生成。此外,论文还使用了开源VLM作为数据合成的工具,并对合成数据的质量进行了筛选和过滤。Aquila-VL-2B模型的具体参数设置和训练策略(如损失函数、优化器等)在论文中可能未详细描述,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文训练的Aquila-VL-2B模型在同等规模的模型中取得了最先进的性能,证明了Infinity-MM数据集的有效性。具体性能数据和对比基线在摘要中未给出,属于未知信息。但SOTA的结论表明该模型在相关评测指标上优于其他20亿参数规模的模型。

🎯 应用场景

该研究成果可广泛应用于各种需要多模态理解和交互的场景,例如智能客服、图像搜索、视觉问答、机器人导航等。高质量的多模态指令数据能够提升VLM在这些场景中的性能,实现更自然、更智能的人机交互。未来,该研究可以促进多模态人工智能技术的发展,推动相关应用落地。

📄 摘要(原文)

Recently, Vision-Language Models (VLMs) have achieved remarkable progress in multimodal tasks, and multimodal instruction data serves as the foundation for enhancing VLM capabilities. Despite the availability of several open-source multimodal datasets, limitations in the scale and quality of open-source instruction data hinder the performance of VLMs trained on these datasets, leading to a significant gap compared to models trained on closed-source data. To address this challenge, we introduce Infinity-MM, a large-scale multimodal instruction dataset. We collected the available multimodal instruction datasets and performed unified preprocessing, resulting in a dataset with over 40 million samples that ensures diversity and accuracy. Furthermore, to enable large-scale expansion of instruction data and support the continuous acquisition of high-quality data, we propose a synthetic instruction generation method based on a tagging system and open-source VLMs. By establishing correspondences between different types of images and associated instruction types, this method can provide essential guidance during data synthesis. Leveraging this high-quality data, we have trained a 2-billion-parameter Vision-Language Model, Aquila-VL-2B, which achieves state-of-the-art (SOTA) performance among models of similar scale. The data is available at: https://huggingface.co/datasets/BAAI/Infinity-MM.