VisCon-100K: Leveraging Contextual Web Data for Fine-tuning Vision Language Models

作者: Gokul Karthik Kumar, Iheb Chaabane, Kebin Wu

分类: cs.CL, cs.CV

发布日期: 2025-02-14 (更新: 2025-02-24)

备注: Accepted at PAKDD 2025

💡 一句话要点

VisCon-100K：利用上下文网络数据微调视觉语言模型，提升多模态理解能力

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 上下文学习 微调 图像对话 多模态数据

📋 核心要点

现有VLM缺乏高质量的微调数据，限制了其在复杂视觉理解任务中的表现。
VisCon-100K通过利用网络文档中的图像和上下文信息，生成高质量的图像对话数据，用于VLM的微调。
实验表明，使用VisCon-100K微调的VLM在多个基准测试中性能显著提升，验证了该数据集的有效性。

📝 摘要（中文）

视觉语言模型(VLM)在各种视觉基准测试中表现出色，但通常受到高质量视觉微调数据缺乏的限制。为了解决这个问题，我们引入了VisCon-100K，这是一个从交错的图像-文本网络文档中提取的新数据集。我们的方法将OBELICS数据集中的45K个网络文档转换为100K个图像对话样本。我们利用GPT-4V生成图像上下文描述，并使用OpenChat 3.5模型将这些描述转换为多样化的自由形式和多项选择问答对。将此数据集用于微调可以显著提高VLM在多个基准测试中的性能。与仅关注细粒度视觉内容的方法不同，我们的方法利用随附的网络上下文，从而产生更优越的结果。我们还发现了一种“泄漏模态混合”，其中对话样本包含可以从图像及其上下文描述中回答的问题，这种方式优于非泄漏的描述和问答对组合。VisCon-100k数据集在两种流行的VLM方法上表现出强大的性能：仅文本的大型语言模型(LLM)通过图像描述数据与视觉编码器对齐(ShareGPT4V-7b)和使用交错图像-文本数据进行多模态预训练的LLM (IDEFICS2-8b)。除了发布VisCon-100K数据集外，我们还提供了一个在此数据集上训练的上下文描述器，从而促进了未来研究和开源应用的可扩展微调数据生成。使用相同的流程，但用我们训练的上下文描述器代替GPT-4V，我们还发布了更大的VisCon-1M数据集。

🔬 方法详解

问题定义：现有视觉语言模型(VLM)在各种视觉任务中表现出色，但其性能很大程度上依赖于高质量的微调数据。然而，获取大规模、高质量的视觉微调数据成本高昂。此外，现有方法往往只关注图像本身的视觉内容，忽略了图像相关的上下文信息，这限制了VLM对复杂场景的理解能力。

核心思路：本文的核心思路是利用互联网上大量的图像-文本数据，从中提取图像及其上下文信息，并将其转化为高质量的图像对话数据，用于VLM的微调。通过引入上下文信息，VLM可以更好地理解图像的语义，从而提高其在各种视觉任务中的性能。

技术框架：该方法主要包含以下几个步骤：1) 从OBELICS数据集中选择包含图像和文本的网络文档；2) 利用GPT-4V生成图像的上下文描述；3) 使用OpenChat 3.5模型将上下文描述转化为自由形式和多项选择问答对；4) 将生成的图像、上下文描述和问答对组成图像对话样本，构建VisCon-100K数据集；5) 使用VisCon-100K数据集微调VLM。

关键创新：该方法的主要创新点在于：1) 利用网络上下文信息生成高质量的图像对话数据，弥补了现有VLM微调数据不足的缺陷；2) 提出了一种“泄漏模态混合”策略，即生成的问答对既可以从图像中回答，也可以从上下文描述中回答，从而提高了VLM的学习效率；3) 训练了一个上下文描述器，可以用于生成更大规模的VisCon-1M数据集。

关键设计：在生成上下文描述时，使用了GPT-4V模型，并针对不同的图像类型进行了优化。在生成问答对时，使用了OpenChat 3.5模型，并采用了多样化的生成策略，以保证问答对的多样性。在微调VLM时，使用了标准的交叉熵损失函数，并针对不同的VLM模型进行了参数调整。

🖼️ 关键图片

📊 实验亮点

VisCon-100K数据集在ShareGPT4V-7b和IDEFICS2-8b两种VLM模型上都取得了显著的性能提升。实验结果表明，使用VisCon-100K微调的VLM在多个基准测试中性能优于其他方法，验证了该数据集的有效性。此外，研究还发现“泄漏模态混合”策略可以进一步提高VLM的学习效率。

🎯 应用场景

该研究成果可广泛应用于各种视觉语言任务，例如图像描述生成、视觉问答、图像检索等。通过利用上下文信息，可以提高VLM在这些任务中的性能，从而为用户提供更准确、更智能的服务。此外，该研究提出的数据生成方法可以用于构建更大规模、更高质量的视觉语言数据集，为未来的研究提供支持。

📄 摘要（原文）

Vision-language models (VLMs) excel in various visual benchmarks but are often constrained by the lack of high-quality visual fine-tuning data. To address this challenge, we introduce VisCon-100K, a novel dataset derived from interleaved image-text web documents. Our approach transforms 45K web documents from the OBELICS dataset into 100K image conversation samples. We utilize GPT-4V to generate image-contextual captions and OpenChat 3.5 model to convert these captions into diverse free-form and multiple-choice question-answer pairs. Integrating this dataset for fine-tuning considerably enhances VLM performance across multiple benchmarks. Unlike methods that focus solely on fine-grained visual content, our approach leverages accompanying web context, yielding superior results. We also discover that a 'leaky modality mix', where conversation samples contain questions answerable from both the image and its contextual caption, outperforms non-leaky combinations of captions and Q&A pairs. VisCon-100k dataset shows strong performance with two popular VLM approaches: text-only large language model (LLM) aligned with a vision encoder using image captions data (ShareGPT4V-7b) and multimodally pretrained LLM (IDEFICS2-8b) using interleaved image-text data. In addition to releasing the VisCon-100K dataset, we provide a contextual captioner trained on this dataset, facilitating scalable fine-tuning data generation for future research and open-source applications. Using the same pipeline, but substituting our trained contextual captioner for GPT-4V, we also release the larger VisCon-1M dataset.

VisCon-100K: Leveraging Contextual Web Data for Fine-tuning Vision Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理