InfiMM-WebMath-40B: Advancing Multimodal Pre-Training for Enhanced Mathematical Reasoning
作者: Xiaotian Han, Yiren Jian, Xuefeng Hu, Haogeng Liu, Yiqi Wang, Qihang Fan, Yuang Ai, Huaibo Huang, Ran He, Zhenheng Yang, Quanzeng You
分类: cs.CV, cs.MM
发布日期: 2024-09-19
🔗 代码/项目: HUGGINGFACE
💡 一句话要点
提出InfiMM-WebMath-40B多模态数学推理预训练数据集,提升大语言模型数学能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态学习 数学推理 预训练数据集 大型语言模型 图文交错 CommonCrawl 知识表示
📋 核心要点
- 多模态大型语言模型(MLLMs)在数学推理方面缺乏大规模、高质量的开源预训练数据集,限制了其性能。
- 论文构建InfiMM-WebMath-40B数据集,包含图文交错的数学相关网页数据,旨在提升MLLMs的数学推理能力。
- 实验表明,使用该数据集预训练的模型在文本和多模态数学基准测试中均取得了显著的性能提升,达到新的SOTA。
📝 摘要(中文)
本文介绍InfiMM-WebMath-40B,一个高质量的图文交错文档数据集,专为增强大型语言模型(LLMs)在数学等专业领域的推理能力而设计。该数据集包含从CommonCrawl精心提取和过滤的2400万个网页、8500万个相关图像URL和400亿个文本tokens。论文详细概述了数据收集和处理流程。为了验证InfiMM-WebMath-40B的有效性,作者在纯文本和多模态设置下进行了评估。在纯文本基准测试中,尽管仅使用了400亿个tokens,但该数据集显著提高了13亿参数模型的性能,结果与使用1200亿个tokens的DeepSeekMath-1.3B相当。此外,在多模态数学基准测试(如MathVerse和We-Math)上,该模型在开源模型中取得了新的state-of-the-art。数据集已在https://huggingface.co/datasets/Infi-MM/InfiMM-WebMath-40B上发布。
🔬 方法详解
问题定义:当前多模态大型语言模型在数学推理能力方面存在瓶颈,主要原因是缺乏专门针对数学领域的大规模、高质量的预训练数据集。现有方法通常依赖通用数据集,无法充分训练模型在数学问题上的推理能力。
核心思路:论文的核心思路是构建一个大规模、高质量的图文交错数据集,专门用于数学推理的预训练。通过让模型学习数学相关的文本和图像信息,增强其对数学概念和问题的理解能力,从而提升其数学推理性能。
技术框架:整体框架包括数据收集、数据清洗和模型训练三个主要阶段。数据收集阶段从CommonCrawl抓取大量网页,并筛选出与数学相关的网页。数据清洗阶段对抓取的网页进行过滤和处理,去除噪声数据,并提取文本和图像信息。模型训练阶段使用清洗后的数据对多模态大型语言模型进行预训练。
关键创新:该论文的关键创新在于构建了一个大规模、高质量的图文交错的数学预训练数据集InfiMM-WebMath-40B。与现有方法相比,该数据集专门针对数学领域,包含丰富的数学知识和问题,能够更有效地提升模型的数学推理能力。
关键设计:数据收集方面,使用了CommonCrawl作为数据来源,并设计了有效的过滤规则来筛选数学相关网页。数据清洗方面,采用了多种技术来去除噪声数据,包括文本过滤、图像过滤等。模型训练方面,使用了标准的预训练方法,并针对数学问题进行了一些优化。
🖼️ 关键图片
📊 实验亮点
实验结果表明,使用InfiMM-WebMath-40B预训练的13亿参数模型,在纯文本数学基准测试中,仅使用400亿tokens就达到了与使用1200亿tokens的DeepSeekMath-1.3B相当的性能。在多模态数学基准测试MathVerse和We-Math上,该模型取得了开源模型中的state-of-the-art,显著提升了多模态数学推理能力。
🎯 应用场景
该研究成果可广泛应用于教育、科研等领域。例如,可以开发智能辅导系统,帮助学生解决数学问题;可以用于数学公式识别和理解,辅助科研人员进行数学建模和分析;还可以应用于金融、工程等领域,解决复杂的数学计算问题。该数据集的发布也将促进多模态数学推理领域的研究进展。
📄 摘要(原文)
Pre-training on large-scale, high-quality datasets is crucial for enhancing the reasoning capabilities of Large Language Models (LLMs), especially in specialized domains such as mathematics. Despite the recognized importance, the Multimodal LLMs (MLLMs) field currently lacks a comprehensive open-source pre-training dataset specifically designed for mathematical reasoning. To address this gap, we introduce InfiMM-WebMath-40B, a high-quality dataset of interleaved image-text documents. It comprises 24 million web pages, 85 million associated image URLs, and 40 billion text tokens, all meticulously extracted and filtered from CommonCrawl. We provide a detailed overview of our data collection and processing pipeline. To demonstrate the robustness of InfiMM-WebMath-40B, we conducted evaluations in both text-only and multimodal settings. Our evaluations on text-only benchmarks show that, despite utilizing only 40 billion tokens, our dataset significantly enhances the performance of our 1.3B model, delivering results comparable to DeepSeekMath-1.3B, which uses 120 billion tokens for the same model size. Nevertheless, with the introduction of our multi-modal math pre-training dataset, our models set a new state-of-the-art among open-source models on multi-modal math benchmarks such as MathVerse and We-Math. We release our data at https://huggingface.co/datasets/Infi-MM/InfiMM-WebMath-40B.