LLMs Meet Multimodal Generation and Editing: A Survey

作者: Yingqing He, Zhaoyang Liu, Jingye Chen, Zeyue Tian, Hongyu Liu, Xiaowei Chi, Runtao Liu, Ruibin Yuan, Yazhou Xing, Wenhai Wang, Jifeng Dai, Yong Zhang, Wei Xue, Qifeng Liu, Yike Guo, Qifeng Chen

分类: cs.AI, cs.CL, cs.CV, cs.MM, cs.SD

发布日期: 2024-05-29 (更新: 2024-06-09)

备注: 52 Pages with 16 Figures, 12 Tables, and 545 References. GitHub Repository at: https://github.com/YingqingHe/Awesome-LLMs-meet-Multimodal-Generation

🔗 代码/项目: GITHUB

💡 一句话要点

综述LLM在多模态生成与编辑中的应用，涵盖图像、视频、3D和音频等领域。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态生成 多模态编辑 大型语言模型 AIGC 图像生成 视频生成 3D生成 音频生成

📋 核心要点

现有MLLM综述侧重于多模态理解，忽略了多模态生成与编辑的重要性，本研究旨在填补这一空白。
本综述系统性地梳理了LLM在图像、视频、3D和音频等多模态生成与编辑中的应用，并进行分类总结。
论文深入探讨了LLM在多模态生成中的角色、关键技术组件、数据集以及工具增强型多模态代理，并展望了未来发展。

📝 摘要（中文）

随着大型语言模型（LLM）的快速发展，将LLM与多模态学习相结合的兴趣日益浓厚。以往关于多模态大型语言模型（MLLM）的综述主要集中于多模态理解。本综述详细阐述了LLM在图像、视频、3D和音频等各个领域的多模态生成与编辑方面的应用。具体来说，我们总结了这些领域中具有里程碑意义的显著进展，并将这些研究分为基于LLM和基于CLIP/T5的方法。然后，我们总结了LLM在多模态生成中的各种角色，并详尽地研究了这些方法背后的关键技术组件以及研究中使用的多模态数据集。此外，我们深入研究了可以利用现有生成模型进行人机交互的工具增强型多模态代理。最后，我们讨论了生成式AI安全领域的进展，研究了新兴应用，并讨论了未来的前景。我们的工作对多模态生成和处理提供了一个系统而深刻的概述，有望推动生成内容人工智能（AIGC）和世界模型的发展。所有相关论文的精选列表可在https://github.com/YingqingHe/Awesome-LLMs-meet-Multimodal-Generation找到。

🔬 方法详解

问题定义：现有的大型语言模型综述主要集中在多模态理解方面，而忽略了多模态生成和编辑的重要性。在图像、视频、3D和音频等领域，如何有效地利用LLM进行内容生成和编辑是一个重要的研究问题。现有方法在如何将LLM与各种模态的数据进行有效融合，以及如何利用LLM的强大生成能力来提升多模态内容的质量和可控性方面存在挑战。

核心思路：本综述的核心思路是对现有基于LLM的多模态生成和编辑方法进行系统性的梳理和分类，并深入分析这些方法背后的关键技术组件和设计思想。通过对不同方法的比较和分析，总结出LLM在多模态生成和编辑中的各种角色，并为未来的研究提供指导。

技术框架：本综述首先将现有方法分为基于LLM和基于CLIP/T5的两大类。然后，针对每一类方法，分别从图像、视频、3D和音频等不同模态的角度进行详细的介绍和分析。此外，综述还讨论了工具增强型多模态代理，以及生成式AI安全等相关问题。整体框架旨在全面覆盖LLM在多模态生成和编辑中的应用，并提供一个系统性的视角。

关键创新：本综述的关键创新在于其全面性和系统性。它不仅涵盖了LLM在多模态生成和编辑中的各种应用，还深入分析了这些方法背后的关键技术组件和设计思想。此外，综述还讨论了工具增强型多模态代理和生成式AI安全等新兴领域，为未来的研究提供了新的方向。

关键设计：本综述的关键设计在于其分类方法和分析框架。通过将现有方法分为基于LLM和基于CLIP/T5的两大类，可以更清晰地了解不同方法的特点和优势。此外，综述还针对每一类方法，从不同模态的角度进行详细的介绍和分析，从而更全面地了解LLM在多模态生成和编辑中的应用。

🖼️ 关键图片

📊 实验亮点

该综述总结了大量基于LLM的多模态生成与编辑方法，并进行了系统性的分类和分析。通过对这些方法的比较和分析，可以更清晰地了解LLM在多模态生成和编辑中的优势和局限性，并为未来的研究提供指导。该综述还提供了相关论文的精选列表，方便研究者快速了解该领域的研究进展。

🎯 应用场景

该研究成果可广泛应用于AIGC（生成内容人工智能）领域，例如图像/视频编辑、3D模型生成、音频内容创作等。通过结合LLM的强大生成能力，可以提升多模态内容的质量、可控性和创造性，为内容创作者提供更强大的工具，并推动世界模型的发展。

📄 摘要（原文）

With the recent advancement in large language models (LLMs), there is a growing interest in combining LLMs with multimodal learning. Previous surveys of multimodal large language models (MLLMs) mainly focus on multimodal understanding. This survey elaborates on multimodal generation and editing across various domains, comprising image, video, 3D, and audio. Specifically, we summarize the notable advancements with milestone works in these fields and categorize these studies into LLM-based and CLIP/T5-based methods. Then, we summarize the various roles of LLMs in multimodal generation and exhaustively investigate the critical technical components behind these methods and the multimodal datasets utilized in these studies. Additionally, we dig into tool-augmented multimodal agents that can leverage existing generative models for human-computer interaction. Lastly, we discuss the advancements in the generative AI safety field, investigate emerging applications, and discuss future prospects. Our work provides a systematic and insightful overview of multimodal generation and processing, which is expected to advance the development of Artificial Intelligence for Generative Content (AIGC) and world models. A curated list of all related papers can be found at https://github.com/YingqingHe/Awesome-LLMs-meet-Multimodal-Generation

LLMs Meet Multimodal Generation and Editing: A Survey

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理