SK-VQA: Synthetic Knowledge Generation at Scale for Training Context-Augmented Multimodal LLMs

作者: Xin Su, Man Luo, Kris W Pan, Tien Pei Chou, Vasudev Lal, Phillip Howard

分类: cs.CL, cs.CV

发布日期: 2024-06-28 (更新: 2025-06-09)

备注: ICML 2025 Spotlight Oral

💡 一句话要点

提出SK-VQA：大规模合成知识生成数据集，用于训练上下文增强的多模态LLM

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 视觉问答 知识图谱 上下文增强 合成数据 大型语言模型 数据增强 检索增强生成

📋 核心要点

现有多模态LLM在知识型视觉问答等任务中表现受限，因为它们缺乏对上下文信息的有效利用。
SK-VQA通过大规模合成数据，为MLLM提供丰富的上下文知识，从而提升其上下文感知能力。
实验证明，基于SK-VQA训练的模型在上下文感知VQA和多模态RAG任务中均取得了显著的性能提升。

📝 摘要（中文）

本文提出SK-VQA，一个大规模合成多模态数据集，包含超过200万个视觉问答对，每个问答对都关联着包含答案所需信息的上下文文档。现有的多模态LLM（MLLM）并非为上下文增强生成而设计，限制了其在知识型视觉问答（KB-VQA）等领域的有效性。SK-VQA数据集的问题数量是先前数据集的11倍，具有更大的领域多样性，并涵盖了更广泛的图像来源。人工评估证实了生成的问题-答案对的高质量及其上下文相关性。实验表明，SK-VQA既可以作为具有挑战性的KB-VQA基准，也可以作为训练MLLM以适应上下文增强生成的有效资源。使用SK-VQA训练的模型在上下文感知VQA和多模态RAG设置中都表现出更强的泛化能力。SK-VQA已通过Hugging Face Hub公开。

🔬 方法详解

问题定义：现有的多模态LLM在处理需要外部知识的视觉问答任务时，由于缺乏对上下文信息的有效利用，性能受到限制。它们没有针对上下文增强生成进行专门设计，无法充分利用检索到的相关知识来准确回答问题。

核心思路：本文的核心思路是利用大规模合成数据来训练MLLM，使其能够更好地理解和利用上下文信息。通过生成包含问题、答案和相关上下文文档的数据集，可以有效地提升MLLM在知识型视觉问答任务中的表现。

技术框架：SK-VQA数据集的生成流程主要包括以下几个阶段：首先，从各种来源收集图像和文本数据；然后，利用大型语言模型（LLM）生成与图像相关的上下文文档；接着，基于图像和上下文文档生成问题和答案对；最后，对生成的数据进行过滤和清洗，以确保数据质量。

关键创新：SK-VQA的关键创新在于其大规模的合成数据生成方法，该方法能够有效地生成高质量的上下文增强的视觉问答数据。与以往的数据集相比，SK-VQA包含更多的问题、更广泛的领域和更丰富的图像来源。

关键设计：在数据生成过程中，作者使用了多种策略来保证数据质量，例如，使用不同的LLM生成上下文文档和问题答案对，并对生成的数据进行人工评估和过滤。此外，作者还设计了一系列指标来评估生成数据的质量和多样性，例如，问题复杂度、答案准确性和上下文相关性等。

🖼️ 关键图片

📊 实验亮点

实验结果表明，使用SK-VQA训练的MLLM在KB-VQA任务上取得了显著的性能提升。例如，在Context-Aware VQA任务中，模型性能提升了XX%。此外，模型在多模态RAG任务中也表现出更强的泛化能力，证明了SK-VQA作为训练资源的有效性。

🎯 应用场景

SK-VQA数据集和相关研究成果可广泛应用于知识型视觉问答、多模态信息检索、智能客服、教育辅助等领域。通过提升模型对上下文信息的理解和利用能力，可以构建更智能、更可靠的多模态应用系统，为用户提供更优质的服务。

📄 摘要（原文）

Multimodal retrieval augmented generation (RAG) plays a crucial role in domains such as knowledge-based visual question answering (KB-VQA), where external knowledge is needed to answer a question. However, existing multimodal LLMs (MLLMs) are not designed for context-augmented generation, limiting their effectiveness in such tasks. While synthetic data generation has recently gained attention for training MLLMs, its application for context-augmented generation remains underexplored. To address this gap, we introduce SK-VQA, a large-scale synthetic multimodal dataset containing over 2 million visual question-answer pairs, each associated with context documents containing information necessary to determine the final answer. Compared to previous datasets, SK-VQA contains 11x more unique questions, exhibits greater domain diversity, and covers a broader spectrum of image sources. Through human evaluations, we confirm the high quality of the generated question-answer pairs and their contextual relevance. Extensive experiments show that SK-VQA serves both as a challenging KB-VQA benchmark and as an effective training resource for adapting MLLMs to context-augmented generation. Our results further indicate that models trained on SK-VQA demonstrate enhanced generalization in both context-aware VQA and multimodal RAG settings. SK-VQA is publicly available via Hugging Face Hub.

SK-VQA: Synthetic Knowledge Generation at Scale for Training Context-Augmented Multimodal LLMs

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理