VisualWebInstruct: Scaling up Multimodal Instruction Data through Web Search

📄 arXiv: 2503.10582v2 📥 PDF

作者: Yiming Jia, Jiachen Li, Xiang Yue, Bo Li, Ping Nie, Kai Zou, Wenhu Chen

分类: cs.CV, cs.AI, cs.CL

发布日期: 2025-03-13 (更新: 2025-03-15)

备注: Technical Report


💡 一句话要点

VisualWebInstruct:通过网络搜索扩展多模态指令数据,提升视觉语言模型推理能力。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 视觉语言模型 数据集构建 网络搜索 推理能力

📋 核心要点

  1. 现有视觉语言模型在感知任务上表现出色,但在推理任务上仍有不足,主要原因是缺乏高质量和多样化的训练数据。
  2. VisualWebInstruct利用搜索引擎,从大量网页中提取信息,构建包含图像和文本的多模态问答数据集,覆盖多个学科。
  3. 实验表明,在VisualWebInstruct上微调的模型在多个基准测试中取得了显著的性能提升,验证了数据集的有效性。

📝 摘要(中文)

本文提出了一种名为VisualWebInstruct的新方法,旨在解决推理型多模态数据集稀缺的问题。该方法利用搜索引擎创建一个多样且高质量的数据集,涵盖数学、物理、金融和化学等多个学科。从精心挑选的30,000张种子图像开始,使用Google Image Search识别包含相似图像的网站。从超过70万个唯一URL中收集和处理HTML数据。通过内容提取、过滤和合成的流程,构建了一个包含约90万个问答(QA)对的数据集,其中40%为视觉QA对,其余为基于文本的QA对。在VisualWebInstruct上微调的模型表现出显著的性能提升:在Llava-OV上微调后,在多个基准测试中获得了10-20个绝对点的提升;从Mammoth-VL微调后,在多个基准测试中获得了5个绝对点的提升。最佳模型Mammoth-VL2在MMMU-Pro(40.7)、MathVerse(42.6)和DynaMath(55.7)上实现了10B参数量级下的最先进性能。这些结果突显了该数据集在增强视觉语言模型处理复杂多模态任务的推理能力方面的有效性。

🔬 方法详解

问题定义:现有视觉语言模型在感知任务上取得了显著进展,但在需要复杂推理的多模态任务上仍然表现不足。主要原因是缺乏高质量、多样化的训练数据,特别是那些需要跨领域知识和推理能力的数据。现有数据集往往规模较小,领域单一,难以有效提升模型的推理能力。

核心思路:VisualWebInstruct的核心思路是利用互联网上丰富的多模态信息,通过搜索引擎自动构建大规模、多样化的训练数据集。通过图像搜索,找到包含相关图像的网页,然后从网页中提取文本信息,构建问答对。这种方法可以有效地扩展数据集的规模和多样性,覆盖更广泛的领域和知识。

技术框架:VisualWebInstruct的整体流程包括以下几个主要阶段:1) 种子图像选择:选择30,000张具有代表性的图像作为种子。2) 网页搜索:使用Google Image Search,根据种子图像搜索包含相似图像的网页。3) 数据收集:从搜索结果中收集超过70万个唯一URL的HTML数据。4) 内容提取:从HTML数据中提取文本和图像信息。5) 数据过滤:过滤掉低质量或不相关的数据。6) 问答对合成:根据提取的文本和图像信息,生成问答对。

关键创新:VisualWebInstruct的关键创新在于利用搜索引擎自动构建大规模多模态数据集。与传统的手动标注方法相比,这种方法可以显著降低数据收集的成本,并提高数据集的规模和多样性。此外,该方法还设计了一系列数据过滤和合成策略,以确保数据集的质量。

关键设计:在数据过滤阶段,论文使用了一系列规则和启发式方法,例如基于文本长度、关键词匹配等。在问答对合成阶段,论文使用了不同的模板和策略,以生成不同类型的问答对,包括视觉问答和文本问答。具体参数设置和网络结构信息未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在VisualWebInstruct数据集上微调的模型在多个基准测试中取得了显著的性能提升。在Llava-OV上微调后,在多个基准测试中获得了10-20个绝对点的提升;从Mammoth-VL微调后,在多个基准测试中获得了5个绝对点的提升。最佳模型Mammoth-VL2在MMMU-Pro(40.7)、MathVerse(42.6)和DynaMath(55.7)上实现了10B参数量级下的最先进性能。

🎯 应用场景

VisualWebInstruct构建的数据集可以用于训练和评估视觉语言模型的推理能力,尤其是在需要跨领域知识的复杂多模态任务中。该研究成果可应用于智能教育、智能问答、科学研究等领域,例如,可以构建一个能够回答学生提出的关于物理、化学等问题的智能辅导系统。未来,可以进一步扩展数据集的规模和领域,提升模型的泛化能力。

📄 摘要(原文)

Vision-Language Models have made significant progress on many perception-focused tasks. However, their progress on reasoning-focused tasks remains limited due to the lack of high-quality and diverse training data. In this work, we aim to address the scarcity of reasoning-focused multimodal datasets. We propose VisualWebInstruct, a novel approach that leverages search engines to create a diverse and high-quality dataset spanning multiple disciplines, including mathematics, physics, finance, and chemistry, etc. Starting with a meticulously selected set of 30,000 seed images, we employ Google Image Search to identify websites containing similar images. We collect and process HTML data from over 700K unique URLs. Through a pipeline of content extraction, filtering, and synthesis, we construct a dataset of approximately 900K question-answer (QA) pairs, with 40% consisting of visual QA pairs and the remaining comprising text-based QA pairs. Models fine-tuned on VisualWebInstruct demonstrate significant performance improvements: (1) fine-tuning on Llava-OV results in 10-20 absolute points improvement across benchmarks, and (2) fine-tuning from MAmmoTH-VL yields a 5 absolute points gain across benchmarks. Our best model, MAmmoTH-VL2, achieves state-of-the-art performance within the 10B parameter class on MMMU-Pro (40.7), MathVerse (42.6), and DynaMath (55.7). These results highlight the effectiveness of our dataset in enhancing the reasoning capabilities of vision-language models for complex multimodal tasks.