The Synergy between Data and Multi-Modal Large Language Models: A Survey from Co-Development Perspective

📄 arXiv: 2407.08583v2 📥 PDF

作者: Zhen Qin, Daoyuan Chen, Wenhao Zhang, Liuyi Yao, Yilun Huang, Bolin Ding, Yaliang Li, Shuiguang Deng

分类: cs.AI, cs.CV, cs.LG

发布日期: 2024-07-11 (更新: 2024-08-05)

备注: Ongoing work. 21 pages. Related materials are continually maintained and available at https://github.com/modelscope/data-juicer/blob/main/docs/awesome_llm_data.md

🔗 代码/项目: GITHUB


💡 一句话要点

综述多模态大语言模型与数据协同发展,促进模型能力提升与数据质量优化。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 数据质量 数据增强 数据清洗 协同发展 模型优化 数据标注

📋 核心要点

  1. 多模态大语言模型依赖海量数据,但数据质量参差不齐,如何有效利用数据提升模型性能是核心问题。
  2. 该综述从数据与模型协同发展的角度出发,分析数据如何促进模型能力提升,以及模型如何辅助数据优化。
  3. 通过系统回顾现有工作,旨在为多模态大语言模型社区提供数据-模型协同开发的指导。

📝 摘要(中文)

近年来,大型语言模型(LLMs)发展迅速。基于强大的LLMs,多模态LLMs(MLLMs)将模态从文本扩展到更广泛的领域,因其更广泛的应用场景而受到广泛关注。由于LLMs和MLLMs依赖于大量的模型参数和数据来实现涌现能力,因此数据的重要性日益受到广泛的关注和认可。通过追踪和分析最近面向MLLMs的以数据为中心的工作,我们发现模型和数据的开发不是两条独立的路径,而是相互关联的。一方面,更大和更高质量的数据有助于MLLMs获得更好的性能;另一方面,MLLMs可以促进数据的开发。多模态数据和MLLMs的协同开发需要清楚地了解:1)在MLLMs的哪些开发阶段可以使用特定的以数据为中心的方法来增强某些MLLM能力;2)MLLMs如何利用这些能力在特定角色中为多模态数据做出贡献。为了促进MLLM社区的数据-模型协同开发,我们从数据-模型协同开发的角度系统地回顾了与MLLMs相关的现有工作。与本调查相关的定期维护的项目可在https://github.com/modelscope/data-juicer/blob/main/docs/awesome_llm_data.md上访问。

🔬 方法详解

问题定义:多模态大语言模型(MLLMs)的性能高度依赖于训练数据。然而,获取高质量、大规模的多模态数据仍然是一个挑战。现有的方法往往侧重于模型架构的改进,而忽略了数据本身的重要性。数据质量问题,如噪声、不平衡和缺乏多样性,会严重影响MLLMs的泛化能力和鲁棒性。因此,如何有效地利用和优化多模态数据,以提升MLLMs的性能,是一个亟待解决的问题。

核心思路:该综述的核心思路是强调数据与模型之间的协同发展关系。一方面,高质量的数据能够显著提升MLLMs的性能,使其具备更强的理解和生成能力。另一方面,训练好的MLLMs也可以反过来辅助数据的清洗、标注和增强,从而构建更高质量的数据集。这种数据与模型之间的正向循环,能够促进MLLMs的持续发展。

技术框架:该综述没有提出新的技术框架,而是对现有研究进行了系统性的梳理和分类。它从数据-模型协同发展的角度,分析了在MLLMs的不同开发阶段,如何利用数据来增强模型能力,以及如何利用模型来优化数据。具体来说,综述涵盖了数据收集、数据清洗、数据增强、数据标注等多个方面,并探讨了MLLMs在这些环节中的作用。

关键创新:该综述的创新之处在于其视角。它没有将数据和模型视为独立的实体,而是强调了它们之间的相互依赖和协同作用。这种数据-模型协同发展的视角,为MLLM的研究提供了一个新的思路。通过关注数据质量和数据利用效率,可以更有效地提升MLLMs的性能。

关键设计:该综述没有涉及具体的参数设置或网络结构设计。它主要关注的是数据层面的问题,例如如何选择合适的数据增强方法,如何设计有效的损失函数来平衡不同类别的数据,以及如何利用MLLMs来自动标注数据等。这些设计都旨在提升数据质量,从而间接提升MLLMs的性能。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

该综述系统性地回顾了数据在多模态大语言模型发展中的作用,强调了数据与模型协同发展的重要性。通过分析现有研究,揭示了数据质量对模型性能的关键影响,并提出了利用MLLMs辅助数据优化的思路。该综述为未来的研究方向提供了有价值的参考。

🎯 应用场景

该研究对多模态大语言模型在图像理解、视频分析、机器人控制、智能助手等领域具有广泛的应用前景。通过提升数据质量和模型性能,可以实现更智能、更可靠的多模态应用。例如,在医疗诊断领域,可以利用高质量的医学图像数据训练MLLMs,辅助医生进行疾病诊断和治疗方案制定。

📄 摘要(原文)

The rapid development of large language models (LLMs) has been witnessed in recent years. Based on the powerful LLMs, multi-modal LLMs (MLLMs) extend the modality from text to a broader spectrum of domains, attracting widespread attention due to the broader range of application scenarios. As LLMs and MLLMs rely on vast amounts of model parameters and data to achieve emergent capabilities, the importance of data is receiving increasingly widespread attention and recognition. Tracing and analyzing recent data-oriented works for MLLMs, we find that the development of models and data is not two separate paths but rather interconnected. On the one hand, vaster and higher-quality data contribute to better performance of MLLMs; on the other hand, MLLMs can facilitate the development of data. The co-development of multi-modal data and MLLMs requires a clear view of 1) at which development stages of MLLMs specific data-centric approaches can be employed to enhance certain MLLM capabilities, and 2) how MLLMs, utilizing those capabilities, can contribute to multi-modal data in specific roles. To promote the data-model co-development for MLLM community, we systematically review existing works related to MLLMs from the data-model co-development perspective. A regularly maintained project associated with this survey is accessible at https://github.com/modelscope/data-juicer/blob/main/docs/awesome_llm_data.md.