Multi-modal Generation via Cross-Modal In-Context Learning

📄 arXiv: 2405.18304v1 📥 PDF

作者: Amandeep Kumar, Muzammal Naseer, Sanath Narayan, Rao Muhammad Anwer, Salman Khan, Hisham Cholakkal

分类: cs.CV

发布日期: 2024-05-28

备注: Technical Report

🔗 代码/项目: GITHUB


💡 一句话要点

提出MGCC,利用跨模态上下文学习生成多模态提示序列的新图像。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态生成 跨模态学习 上下文学习 图像生成 大型语言模型

📋 核心要点

  1. 现有文本到图像生成方法难以从长提示中捕捉细节,且在多对象场景中容易出现图像错位。
  2. MGCC利用LLM和扩散模型,通过跨模态细化模块和上下文对象 grounding 模块解决上述问题。
  3. 在VIST和VisDial数据集上,MGCC的CLIP相似度分别达到0.652和0.660,优于现有SOTA方法。

📝 摘要(中文)

本文研究了从复杂多模态提示序列生成新图像的问题。现有方法在文本到图像生成方面取得了有希望的结果,但通常难以捕捉来自冗长提示的细粒度细节,并保持提示序列中的上下文连贯性。此外,对于包含多个对象的提示序列,它们经常导致图像生成错位。为了解决这个问题,我们提出了一种通过跨模态上下文学习的多模态生成(MGCC)方法,该方法利用大型语言模型(LLM)和扩散模型的组合能力,从复杂的多模态提示序列生成新的图像。我们的MGCC包括一个新的跨模态细化模块,用于显式地学习LLM嵌入空间中文本和图像之间的跨模态依赖关系,以及一个上下文对象 grounding 模块,用于生成专门针对具有多个对象的场景的对象边界框。我们的MGCC展示了多种多模态能力,如新图像生成、促进多模态对话和生成文本。在两个基准数据集上的实验评估证明了我们方法的有效性。在具有多模态输入的Visual Story Generation (VIST) 数据集上,我们的MGCC实现了 0.652 的 CLIP 相似度分数,而 SOTA GILL 为 0.641。同样,在具有冗长对话序列的 Visual Dialogue Context (VisDial) 上,我们的MGCC 实现了令人印象深刻的 0.660 的 CLIP 分数,大大优于现有 SOTA 方法的 0.645。

🔬 方法详解

问题定义:论文旨在解决从复杂多模态提示(例如包含文本和图像)生成高质量图像的问题。现有方法在处理长文本提示时,难以捕捉细粒度信息并保持上下文一致性。此外,当提示中包含多个对象时,生成的图像容易出现对象错位或关系错误的问题。这些问题限制了多模态生成模型的应用范围和生成质量。

核心思路:论文的核心思路是利用大型语言模型(LLM)强大的语义理解能力和扩散模型卓越的图像生成能力,通过跨模态上下文学习,将文本和图像信息有效融合,从而生成更符合提示内容的高质量图像。具体而言,通过一个跨模态细化模块学习文本和图像之间的依赖关系,并利用上下文对象 grounding 模块定位和生成多个对象。

技术框架:MGCC的整体框架包含以下几个主要模块:1) LLM编码器:用于提取文本和图像提示的语义特征。2) 跨模态细化模块:用于学习文本和图像特征之间的跨模态依赖关系,增强特征表示。3) 上下文对象 grounding 模块:用于预测图像中各个对象的位置和大小,生成对象边界框。4) 扩散模型:根据融合后的特征和对象边界框,生成最终的图像。

关键创新:论文的关键创新在于提出了跨模态细化模块和上下文对象 grounding 模块。跨模态细化模块通过学习文本和图像之间的依赖关系,增强了多模态信息的融合效果。上下文对象 grounding 模块则通过显式地预测对象边界框,解决了多对象场景下的图像生成错位问题。与现有方法相比,MGCC能够更好地理解和利用多模态提示信息,生成更符合用户意图的图像。

关键设计:跨模态细化模块的具体实现细节未知,但推测可能采用了注意力机制或transformer结构,以学习文本和图像特征之间的关联。上下文对象 grounding 模块可能采用了目标检测或分割模型,用于预测对象边界框。扩散模型可能采用了DDPM或Stable Diffusion等常用的扩散模型架构。损失函数的设计可能包括CLIP相似度损失、对象检测损失等,以保证生成图像的质量和与提示内容的一致性。具体参数设置未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MGCC在VIST数据集上实现了0.652的CLIP相似度,相比SOTA方法GILL的0.641有显著提升。在VisDial数据集上,MGCC的CLIP相似度达到0.660,大幅优于现有SOTA方法的0.645。实验结果表明,MGCC在多模态图像生成任务上具有显著优势,能够有效提升生成图像的质量和与提示内容的一致性。

🎯 应用场景

该研究成果可应用于多种场景,例如:根据用户提供的文本描述和示例图像生成新的图像;在视觉对话系统中,根据对话历史生成相应的图像;在游戏和电影制作中,根据场景描述和角色设定生成概念艺术图。该研究有助于提高多模态生成模型的生成质量和可控性,具有重要的实际应用价值和潜在的商业前景。

📄 摘要(原文)

In this work, we study the problem of generating novel images from complex multimodal prompt sequences. While existing methods achieve promising results for text-to-image generation, they often struggle to capture fine-grained details from lengthy prompts and maintain contextual coherence within prompt sequences. Moreover, they often result in misaligned image generation for prompt sequences featuring multiple objects. To address this, we propose a Multi-modal Generation via Cross-Modal In-Context Learning (MGCC) method that generates novel images from complex multimodal prompt sequences by leveraging the combined capabilities of large language models (LLMs) and diffusion models. Our MGCC comprises a novel Cross-Modal Refinement module to explicitly learn cross-modal dependencies between the text and image in the LLM embedding space, and a contextual object grounding module to generate object bounding boxes specifically targeting scenes with multiple objects. Our MGCC demonstrates a diverse range of multimodal capabilities, like novel image generation, the facilitation of multimodal dialogue, and generation of texts. Experimental evaluations on two benchmark datasets, demonstrate the effectiveness of our method. On Visual Story Generation (VIST) dataset with multimodal inputs, our MGCC achieves a CLIP Similarity score of $0.652$ compared to SOTA GILL $0.641$. Similarly, on Visual Dialogue Context (VisDial) having lengthy dialogue sequences, our MGCC achieves an impressive CLIP score of $0.660$, largely outperforming existing SOTA method scoring $0.645$. Code: https://github.com/VIROBO-15/MGCC