Unleashing LLM Reasoning Capability via Scalable Question Synthesis from Scratch

作者: Yuyang Ding, Xinyu Shi, Xiaobo Liang, Juntao Li, Zhaopeng Tu, Qiaoming Zhu, Min Zhang

分类: cs.CL, cs.AI

发布日期: 2024-10-24 (更新: 2025-05-27)

备注: ACL 2025

💡 一句话要点

提出ScaleQuest，通过可扩展的自生问题合成方法提升LLM的数学推理能力

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 数学推理 数据合成 问题生成 开源社区

📋 核心要点

现有开源社区缺乏大规模、多样化、高质量的数学推理数据集，限制了LLM数学能力的提升。
ScaleQuest通过问题微调和偏好优化，使轻量级模型能够从零生成高质量数学问题，无需依赖专有模型。
实验证明，使用ScaleQuest生成的数据训练的模型，在领域内和领域外评估中均优于现有开源数据集。

📝 摘要（中文）

为了提升大型语言模型（LLM）的数学推理能力，本文提出了一种新颖、可扩展且经济高效的数据合成方法ScaleQuest，它能够使用轻量级的7B规模模型生成大规模的数学推理数据集。ScaleQuest引入了一个两阶段的问题调优过程，包括问题微调（QFT）和问题偏好优化（QPO），以释放问题求解模型的问题生成能力。通过从零开始生成多样化的问题——不依赖于强大的专有模型或种子数据——我们生成了一个包含100万个问题-解答对的数据集。实验表明，在我们的数据上训练的模型在领域内和领域外的评估中都优于现有的开源数据集。此外，我们的方法显示出随着训练数据量的增加而持续的性能提升，突显了其持续数据扩展的潜力。在代码推理任务中观察到的广泛改进证明了我们提出的方法的泛化能力。我们的工作为开源社区提供了一个实用的解决方案，以增强LLM的数学推理能力。

🔬 方法详解

问题定义：现有开源社区缺乏大规模、多样化和高质量的数学推理数据集，这严重阻碍了开源LLM在数学推理能力上的发展。获取高质量的数学推理数据成本高昂，并且依赖于强大的闭源模型，限制了开源社区的研究和应用。

核心思路：ScaleQuest的核心思路是利用轻量级的7B规模模型，通过一个两阶段的调优过程，使其具备生成高质量数学问题的能力。通过从零开始生成问题，避免了对昂贵闭源模型或种子数据的依赖，从而降低了数据获取的成本，并提高了数据的多样性。

技术框架：ScaleQuest包含两个主要阶段：问题微调（Question Fine-Tuning, QFT）和问题偏好优化（Question Preference Optimization, QPO）。首先，QFT阶段使用少量高质量的数学问题-解答对来微调一个预训练的语言模型，使其初步具备生成问题的能力。然后，QPO阶段通过强化学习的方式，根据生成问题的质量和多样性来进一步优化模型，使其能够生成更符合人类偏好的问题。最终生成的问题-解答对被用于训练目标LLM。

关键创新：ScaleQuest的关键创新在于其完全从零开始生成数学问题的能力，无需依赖任何外部的种子数据或强大的闭源模型。这种自生式的数据合成方法，不仅降低了数据获取的成本，而且能够生成更加多样化和高质量的数据，从而显著提升了LLM的数学推理能力。

关键设计：QFT阶段的关键在于选择合适的微调数据和损失函数，以确保模型能够学习到生成高质量问题的基本能力。QPO阶段的关键在于设计合适的奖励函数，以鼓励模型生成多样化且具有挑战性的问题。具体来说，奖励函数可以包括问题难度、问题类型、解答正确率等多个指标。此外，还可以使用对抗训练等技术来进一步提高生成问题的质量。

🖼️ 关键图片

📊 实验亮点

实验结果表明，使用ScaleQuest生成的数据训练的模型，在GSM8K数据集上取得了显著的性能提升，超过了使用现有开源数据集训练的模型。具体而言，在领域内评估中，模型性能提升了超过10个百分点。在领域外评估中，模型也表现出良好的泛化能力。此外，实验还证明，随着训练数据量的增加，模型性能持续提升，验证了ScaleQuest的可扩展性。

🎯 应用场景

ScaleQuest可广泛应用于提升各种LLM的数学推理能力，尤其适用于资源有限的开源社区。该方法生成的数学数据集可用于训练和评估LLM，促进数学教育、科学研究和工程应用等领域的发展。未来，ScaleQuest还可扩展到其他推理任务，例如代码生成、逻辑推理等。

📄 摘要（原文）

Improving the mathematical reasoning capabilities of Large Language Models (LLMs) is critical for advancing artificial intelligence. However, access to extensive, diverse, and high-quality reasoning datasets remains a significant challenge, particularly for the open-source community. In this paper, we propose ScaleQuest, a novel, scalable, and cost-effective data synthesis method that enables the generation of large-scale mathematical reasoning datasets using lightweight 7B-scale models. ScaleQuest introduces a two-stage question-tuning process comprising Question Fine-Tuning (QFT) and Question Preference Optimization (QPO) to unlock the question generation capabilities of problem-solving models. By generating diverse questions from scratch -- without relying on powerful proprietary models or seed data -- we produce a dataset of 1 million problem-solution pairs. Our experiments demonstrate that models trained on our data outperform existing open-source datasets in both in-domain and out-of-domain evaluations. Furthermore, our approach shows continued performance improvement as the volume of training data increases, highlighting its potential for ongoing data scaling. The extensive improvements observed in code reasoning tasks demonstrate the generalization capabilities of our proposed method. Our work provides the open-source community with a practical solution to enhance the mathematical reasoning abilities of LLMs.

Unleashing LLM Reasoning Capability via Scalable Question Synthesis from Scratch

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理