C3L: Content Correlated Vision-Language Instruction Tuning Data Generation via Contrastive Learning

📄 arXiv: 2405.12752v2 📥 PDF

作者: Ji Ma, Wei Suo, Peng Wang, Yanning Zhang

分类: cs.CV

发布日期: 2024-05-21 (更新: 2024-07-02)

备注: Accepted by IJCAI-24


💡 一句话要点

提出C3L,通过对比学习生成内容相关视觉-语言指令微调数据,提升LVLM性能。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 视觉-语言模型 指令微调 对比学习 数据生成 内容相关性

📋 核心要点

  1. 现有VLIT数据生成方法受限于LVLM的先验语言知识,导致生成数据与图像内容相关性低。
  2. C3L通过内容相关性模块和对比学习模块,增强生成数据与图像的内容相关性,提升数据质量。
  3. 实验表明,C3L在多个基准测试中表现出色,验证了其在VLIT数据生成方面的有效性。

📝 摘要(中文)

视觉-语言指令微调(VLIT)是大型视觉-语言模型(LVLM)的关键训练阶段。随着开源LVLM能力的提升,研究人员越来越多地转向使用开源LVLM生成VLIT数据,并取得了显著进展。然而,这种数据生成方法受到以下挑战的限制:1)由于多模态模型容易受到先验语言知识的影响,直接使用LVLM生成VLIT数据不可避免地导致生成数据与图像之间的内容相关性较低。2)为了提高模型生成VLIT数据的能力,先前的方法结合了一个额外的训练阶段来提高生成能力。这个过程损害了模型对未见输入的泛化能力(即“暴露偏差”问题)。在本文中,我们提出了一种新的通过对比学习生成内容相关的VLIT数据的方法(C3L)。具体来说,我们设计了一个新的内容相关性模块,通过计算图像指令对应分数S(I2C)来增强VLIT数据和图像之间的内容相关性。此外,引入了一个对比学习模块,以进一步提高LVLM生成VLIT数据的能力。在四个基准测试上的大量自动测量结果表明了我们方法的有效性。

🔬 方法详解

问题定义:现有基于LVLM的VLIT数据生成方法存在内容相关性不足和暴露偏差问题。LVLM易受语言先验知识影响,导致生成的数据与图像内容关联性差。此外,为了提升生成能力而引入的额外训练阶段会损害模型的泛化性能。

核心思路:C3L的核心思路是通过内容相关性模块和对比学习模块,显式地增强生成数据与图像之间的内容相关性。内容相关性模块用于衡量图像和指令之间的对应程度,而对比学习模块则用于提升LVLM生成高质量VLIT数据的能力,同时避免过拟合。

技术框架:C3L包含两个主要模块:内容相关性模块和对比学习模块。内容相关性模块计算图像指令对应分数S(I2C),用于衡量生成指令与图像内容的匹配程度。对比学习模块则利用正负样本对,通过对比学习的方式,提升LVLM生成VLIT数据的能力。整体流程是,首先利用LVLM生成候选VLIT数据,然后通过内容相关性模块筛选高质量数据,最后利用对比学习模块进一步提升LVLM的生成能力。

关键创新:C3L的关键创新在于显式地建模和增强了图像和指令之间的内容相关性。与现有方法相比,C3L不依赖于额外的训练阶段,而是通过内容相关性模块和对比学习模块,直接提升LVLM的生成能力,从而避免了暴露偏差问题。

关键设计:内容相关性模块通过计算图像和指令的嵌入向量之间的相似度来衡量内容相关性。对比学习模块使用InfoNCE损失函数,鼓励LVLM生成与图像内容更相关的指令。具体的参数设置和网络结构细节在论文中有详细描述,例如,图像和文本的嵌入向量可以通过预训练的视觉和语言模型获得。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

C3L在四个基准测试上取得了显著的性能提升。自动评估指标表明,C3L生成的数据具有更高的内容相关性和质量。与现有方法相比,C3L在数据生成效率和模型泛化能力方面也具有优势。具体的性能数据和对比结果在论文中有详细展示。

🎯 应用场景

C3L可应用于各种需要高质量视觉-语言指令微调数据的场景,例如机器人控制、图像描述生成、视觉问答等。通过生成更相关、更准确的训练数据,可以提升LVLM在这些任务中的性能,从而实现更智能、更可靠的应用。

📄 摘要(原文)

Vision-Language Instruction Tuning (VLIT) is a critical training phase for Large Vision-Language Models (LVLMs). With the improving capabilities of open-source LVLMs, researchers have increasingly turned to generate VLIT data by using open-source LVLMs and achieved significant progress. However, such data generation approaches are bottlenecked by the following challenges: 1) Since multi-modal models tend to be influenced by prior language knowledge, directly using LVLMs to generate VLIT data would inevitably lead to low content relevance between generated data and images. 2) To improve the ability of the models to generate VLIT data, previous methods have incorporated an additional training phase to boost the generative capacity. This process hurts the generalization of the models to unseen inputs (i.e., "exposure bias" problem). In this paper, we propose a new Content Correlated VLIT data generation via Contrastive Learning (C3L). Specifically, we design a new content relevance module which enhances the content relevance between VLIT data and images by computing Image Instruction Correspondence Scores S(I2C). Moreover, a contrastive learning module is introduced to further boost the VLIT data generation capability of the LVLMs. A large number of automatic measures on four benchmarks show the effectiveness of our method.