ControlMath: Controllable Data Generation Promotes Math Generalist Models

📄 arXiv: 2409.15376v1 📥 PDF

作者: Nuo Chen, Ning Wu, Jianhui Chang, Jia Li

分类: cs.LG, cs.AI, cs.CL

发布日期: 2024-09-20

备注: 17 pages


💡 一句话要点

提出ControlMath,通过可控数据生成提升数学通用模型能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 数据增强 大型语言模型 数学推理 通用模型 可控生成

📋 核心要点

  1. 现有方法在数学推理中利用LLM进行数据增强,但问题多样性受限,可能仅限于领域内数据生成。
  2. ControlMath通过方程生成器和两个LLM Agent迭代生成多样化数学问题,并筛选高质量数据。
  3. ControlMathQA数据集包含19万道数学应用题,与领域内数据集结合可提升模型数学泛化能力。

📝 摘要(中文)

本文提出ControlMath,一种迭代方法,旨在利用大型语言模型(LLMs)进行数据增强,以提升数学推理能力。该方法包含一个方程生成器模块和两个基于LLM的Agent。方程生成器模块负责创建多样化的方程,Problem-Crafter Agent将这些方程转化为数学应用题。Reverse-Agent则负责过滤和选择高质量数据,遵循“少即是多”的原则,用更少的数据点获得更好的结果。这种方法能够生成不限于特定领域或分布的多样化数学问题。由此,我们收集了包含19万道数学应用题的ControlMathQA数据集。大量实验结果表明,将我们的数据集与GSM8K等领域内数据集相结合,有助于提高模型的数学泛化能力,从而提高模型在特定领域内外上的性能。

🔬 方法详解

问题定义:现有利用大型语言模型进行数据增强的方法在数学推理领域面临问题多样性不足的挑战。这些方法生成的数据往往局限于特定领域或分布,限制了模型在更广泛的数学问题上的泛化能力。因此,如何生成多样且高质量的数学问题数据成为一个关键问题。

核心思路:ControlMath的核心思路是通过一个可控的数据生成流程,生成多样化的数学问题,并利用LLM Agent进行筛选,保证数据质量。这种方法旨在突破现有数据增强方法的局限性,使模型能够接触到更广泛的数学问题类型,从而提高其泛化能力。

技术框架:ControlMath包含三个主要模块:方程生成器模块、Problem-Crafter Agent和Reverse-Agent。方程生成器模块负责生成多样化的数学方程。Problem-Crafter Agent利用LLM将这些方程转化为数学应用题。Reverse-Agent则利用LLM对生成的数据进行过滤和选择,只保留高质量的数据。整个流程是一个迭代过程,不断生成和筛选数据,最终得到ControlMathQA数据集。

关键创新:ControlMath的关键创新在于其可控的数据生成流程和基于LLM的Agent的协同工作。通过方程生成器模块,可以控制生成方程的多样性,从而避免数据过于集中于特定类型的问题。Problem-Crafter Agent和Reverse-Agent则利用LLM的强大能力,将方程转化为高质量的数学应用题,并筛选出最优质的数据。这种方法与现有方法的本质区别在于,它能够生成不限于特定领域或分布的多样化数学问题。

关键设计:方程生成器模块的设计需要考虑方程的多样性,例如,可以控制方程中包含的运算符、变量数量、数值范围等。Problem-Crafter Agent需要一个精心设计的prompt,以指导其将方程转化为清晰、易懂的数学应用题。Reverse-Agent则需要一个合适的评估指标,以判断生成的数据质量,例如,可以利用LLM对问题的难度、清晰度、逻辑性等方面进行评估。

🖼️ 关键图片

img_0

📊 实验亮点

实验结果表明,将ControlMathQA数据集与GSM8K等领域内数据集相结合,可以显著提高模型的数学泛化能力。具体而言,模型在领域内和领域外的测试集上都取得了更好的性能。这证明了ControlMath方法能够有效地生成多样化且高质量的数学问题数据,从而提升模型的数学推理能力。

🎯 应用场景

ControlMath的研究成果可应用于提升数学教育的智能化水平,例如,可以用于生成个性化的练习题,帮助学生更好地掌握数学知识。此外,该方法还可以应用于开发更强大的数学问题求解器,用于解决实际工程和科学问题。未来,该研究有望推动人工智能在数学领域的更广泛应用。

📄 摘要(原文)

Utilizing large language models (LLMs) for data augmentation has yielded encouraging results in mathematical reasoning. However, these approaches face constraints in problem diversity, potentially restricting them to in-domain/distribution data generation. To this end, we propose ControlMath, an iterative method involving an equation-generator module and two LLM-based agents. The module creates diverse equations, which the Problem-Crafter agent then transforms into math word problems. The Reverse-Agent filters and selects high-quality data, adhering to the "less is more" principle, achieving better results with fewer data points. This approach enables the generation of diverse math problems, not limited to specific domains or distributions. As a result, we collect ControlMathQA, which involves 190k math word problems. Extensive results prove that combining our dataset with in-domain datasets like GSM8K can help improve the model's mathematical ability to generalize, leading to improved performances both within and beyond specific domains.