VisCon-100K: Leveraging Contextual Web Data for Fine-tuning Vision Language Models

📄 arXiv: 2502.10250v2 📥 PDF

作者: Gokul Karthik Kumar, Iheb Chaabane, Kebin Wu

分类: cs.CL, cs.CV

发布日期: 2025-02-14 (更新: 2025-02-24)

备注: Accepted at PAKDD 2025


💡 一句话要点

VisCon-100K:利用上下文网络数据微调视觉语言模型,提升多模态理解能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 上下文学习 微调 图像对话 多模态数据

📋 核心要点

  1. 现有VLM缺乏高质量的微调数据,限制了其在复杂视觉理解任务中的表现。
  2. VisCon-100K通过利用网络文档中的图像和上下文信息,生成高质量的图像对话数据,用于VLM的微调。
  3. 实验表明,使用VisCon-100K微调的VLM在多个基准测试中性能显著提升,验证了该数据集的有效性。

📝 摘要(中文)

视觉语言模型(VLM)在各种视觉基准测试中表现出色,但通常受到高质量视觉微调数据缺乏的限制。为了解决这个问题,我们引入了VisCon-100K,这是一个从交错的图像-文本网络文档中提取的新数据集。我们的方法将OBELICS数据集中的45K个网络文档转换为100K个图像对话样本。我们利用GPT-4V生成图像上下文描述,并使用OpenChat 3.5模型将这些描述转换为多样化的自由形式和多项选择问答对。将此数据集用于微调可以显著提高VLM在多个基准测试中的性能。与仅关注细粒度视觉内容的方法不同,我们的方法利用随附的网络上下文,从而产生更优越的结果。我们还发现了一种“泄漏模态混合”,其中对话样本包含可以从图像及其上下文描述中回答的问题,这种方式优于非泄漏的描述和问答对组合。VisCon-100k数据集在两种流行的VLM方法上表现出强大的性能:仅文本的大型语言模型(LLM)通过图像描述数据与视觉编码器对齐(ShareGPT4V-7b)和使用交错图像-文本数据进行多模态预训练的LLM (IDEFICS2-8b)。除了发布VisCon-100K数据集外,我们还提供了一个在此数据集上训练的上下文描述器,从而促进了未来研究和开源应用的可扩展微调数据生成。使用相同的流程,但用我们训练的上下文描述器代替GPT-4V,我们还发布了更大的VisCon-1M数据集。

🔬 方法详解

问题定义:现有视觉语言模型(VLM)在各种视觉任务中表现出色,但其性能很大程度上依赖于高质量的微调数据。然而,获取大规模、高质量的视觉微调数据成本高昂。此外,现有方法往往只关注图像本身的视觉内容,忽略了图像相关的上下文信息,这限制了VLM对复杂场景的理解能力。

核心思路:本文的核心思路是利用互联网上大量的图像-文本数据,从中提取图像及其上下文信息,并将其转化为高质量的图像对话数据,用于VLM的微调。通过引入上下文信息,VLM可以更好地理解图像的语义,从而提高其在各种视觉任务中的性能。

技术框架:该方法主要包含以下几个步骤:1) 从OBELICS数据集中选择包含图像和文本的网络文档;2) 利用GPT-4V生成图像的上下文描述;3) 使用OpenChat 3.5模型将上下文描述转化为自由形式和多项选择问答对;4) 将生成的图像、上下文描述和问答对组成图像对话样本,构建VisCon-100K数据集;5) 使用VisCon-100K数据集微调VLM。

关键创新:该方法的主要创新点在于:1) 利用网络上下文信息生成高质量的图像对话数据,弥补了现有VLM微调数据不足的缺陷;2) 提出了一种“泄漏模态混合”策略,即生成的问答对既可以从图像中回答,也可以从上下文描述中回答,从而提高了VLM的学习效率;3) 训练了一个上下文描述器,可以用于生成更大规模的VisCon-1M数据集。

关键设计:在生成上下文描述时,使用了GPT-4V模型,并针对不同的图像类型进行了优化。在生成问答对时,使用了OpenChat 3.5模型,并采用了多样化的生成策略,以保证问答对的多样性。在微调VLM时,使用了标准的交叉熵损失函数,并针对不同的VLM模型进行了参数调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

VisCon-100K数据集在ShareGPT4V-7b和IDEFICS2-8b两种VLM模型上都取得了显著的性能提升。实验结果表明,使用VisCon-100K微调的VLM在多个基准测试中性能优于其他方法,验证了该数据集的有效性。此外,研究还发现“泄漏模态混合”策略可以进一步提高VLM的学习效率。

🎯 应用场景

该研究成果可广泛应用于各种视觉语言任务,例如图像描述生成、视觉问答、图像检索等。通过利用上下文信息,可以提高VLM在这些任务中的性能,从而为用户提供更准确、更智能的服务。此外,该研究提出的数据生成方法可以用于构建更大规模、更高质量的视觉语言数据集,为未来的研究提供支持。

📄 摘要(原文)

Vision-language models (VLMs) excel in various visual benchmarks but are often constrained by the lack of high-quality visual fine-tuning data. To address this challenge, we introduce VisCon-100K, a novel dataset derived from interleaved image-text web documents. Our approach transforms 45K web documents from the OBELICS dataset into 100K image conversation samples. We utilize GPT-4V to generate image-contextual captions and OpenChat 3.5 model to convert these captions into diverse free-form and multiple-choice question-answer pairs. Integrating this dataset for fine-tuning considerably enhances VLM performance across multiple benchmarks. Unlike methods that focus solely on fine-grained visual content, our approach leverages accompanying web context, yielding superior results. We also discover that a 'leaky modality mix', where conversation samples contain questions answerable from both the image and its contextual caption, outperforms non-leaky combinations of captions and Q&A pairs. VisCon-100k dataset shows strong performance with two popular VLM approaches: text-only large language model (LLM) aligned with a vision encoder using image captions data (ShareGPT4V-7b) and multimodally pretrained LLM (IDEFICS2-8b) using interleaved image-text data. In addition to releasing the VisCon-100K dataset, we provide a contextual captioner trained on this dataset, facilitating scalable fine-tuning data generation for future research and open-source applications. Using the same pipeline, but substituting our trained contextual captioner for GPT-4V, we also release the larger VisCon-1M dataset.