InfinityMATH: A Scalable Instruction Tuning Dataset in Programmatic Mathematical Reasoning

作者: Bo-Wen Zhang, Yan Yan, Lin Li, Guang Liu

分类: cs.LG, cs.AI

发布日期: 2024-08-09

备注: Accepted by CIKM 2024

DOI: 10.1145/3627673.3679122

🔗 代码/项目: HUGGINGFACE

💡 一句话要点

InfinityMATH：可扩展的程序化数学推理指令调优数据集

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 数学推理 指令调优 程序生成 数据集 语言模型

📋 核心要点

现有大规模数学推理数据集构建依赖大量种子数据和高计算成本，限制了可扩展性。
InfinityMATH通过解耦数字与问题，生成数字无关的程序，实现高效且灵活的数据集扩展。
实验表明，基于InfinityMATH微调的模型在多个基准测试中性能显著提升，并具有更强的鲁棒性。

📝 摘要（中文）

本文提出InfinityMATH，一个可扩展的程序化数学推理指令调优数据集。现有大规模数据集构建方法需要大量的种子数据和高昂的计算成本进行数据合成，对可扩展性构成重大挑战。InfinityMATH的构建流程强调将数字与数学问题解耦，以合成与数字无关的程序，从而实现高效灵活的扩展，同时最大限度地减少对特定数值的依赖。使用Llama2和CodeLlama等开源语言和代码模型进行的微调实验证明了InfinityMATH的实际效益。这些微调模型在同领域和跨领域的基准测试中均表现出显著的相对改进，平均提升幅度从184.7%到514.3%。此外，这些模型在GSM8K+和MATH+基准测试中表现出很高的鲁棒性，这些基准测试是简单数字变体的增强版本。InfinityMATH确保模型在更广泛的数学问题中更通用和有效。该数据集可在https://huggingface.co/datasets/flagopen/InfinityMATH 获取。

🔬 方法详解

问题定义：现有的大规模数学推理数据集构建方法，如CoT和PoT，虽然提升了语言模型的能力，但它们依赖于大量的种子数据和高昂的计算资源进行数据合成。这使得数据集的扩展变得困难，无法满足日益增长的模型训练需求。现有方法对特定数值的依赖性也限制了模型的泛化能力。

核心思路：InfinityMATH的核心在于将数学问题中的数字与问题本身解耦。通过生成与数字无关的程序，可以灵活地替换不同的数值，从而高效地合成大量新的数学问题和答案。这种方法降低了对种子数据的依赖，并显著减少了数据合成所需的计算成本。

技术框架：InfinityMATH的构建流程主要包含以下几个阶段：1) 数学问题模板生成：设计一系列通用的数学问题模板，这些模板不包含具体的数值。2) 程序生成：为每个问题模板生成对应的程序化解决方案，这些程序也是与数字无关的。3) 数值填充：将不同的数值填充到问题模板和程序中，生成具体的数学问题和答案。4) 数据集构建：将生成的数学问题和答案整理成指令调优数据集。

关键创新：InfinityMATH最重要的创新在于其数字解耦的思想。通过将数字与问题解耦，可以高效地生成大量新的数学问题，而无需重新设计问题和答案。这种方法显著提高了数据集的可扩展性，并降低了数据合成的成本。与现有方法相比，InfinityMATH更加灵活，可以轻松地生成各种类型的数学问题。

关键设计：在问题模板设计方面，需要保证模板的通用性和可扩展性，能够覆盖各种类型的数学问题。在程序生成方面，需要设计高效的程序生成算法，能够自动生成与问题模板对应的程序。在数值填充方面，需要选择合适的数值范围和分布，以保证生成的数据集的多样性和难度。

🖼️ 关键图片

📊 实验亮点

基于InfinityMATH微调的Llama2和CodeLlama模型在同领域和跨领域的基准测试中均表现出显著的提升，平均提升幅度从184.7%到514.3%。此外，这些模型在GSM8K+和MATH+基准测试中表现出很高的鲁棒性，表明该数据集能够有效地提高模型的泛化能力。

🎯 应用场景

InfinityMATH数据集可用于训练各种规模的语言模型，提高其在数学推理方面的能力。该数据集可以应用于教育领域，例如智能辅导系统和自动题库生成。此外，该数据集还可以用于开发更强大的AI助手，帮助人们解决各种数学问题，例如金融分析、科学计算和工程设计。

📄 摘要（原文）

Recent advancements in Chain-of-Thoughts (CoT) and Program-of-Thoughts (PoT) methods have greatly enhanced language models' mathematical reasoning capabilities, facilitating their integration into instruction tuning datasets with LLMs. However, existing methods for large-scale dataset creation require substantial seed data and high computational costs for data synthesis, posing significant challenges for scalability. We introduce InfinityMATH, a scalable instruction tuning dataset for programmatic mathematical reasoning. The construction pipeline emphasizes decoupling numbers from mathematical problems to synthesize number-independent programs, enabling efficient and flexible scaling while minimizing dependency on specific numerical values. Fine-tuning experiments with open-source language and code models, such as Llama2 and CodeLlama, demonstrate the practical benefits of InfinityMATH. These fine-tuned models, showed significant relative improvements on both in-domain and out-of-domain benchmarks, ranging from 184.7% to 514.3% on average. Additionally, these models exhibited high robustness on the GSM8K+ and MATH+ benchmarks, which are enhanced version of test sets with simply the number variations. InfinityMATH ensures that models are more versatile and effective across a broader range of mathematical problems. The data is available at https://huggingface.co/datasets/flagopen/InfinityMATH.

InfinityMATH: A Scalable Instruction Tuning Dataset in Programmatic Mathematical Reasoning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理