Verifier-Backed Hard Problem Generation for Mathematical Reasoning
作者: Yuhang Lai, Jiazhan Feng, Yee Whye Teh, Ning Miao
分类: cs.LG, cs.AI, cs.CL
发布日期: 2026-05-07
💡 一句话要点
提出VHG框架,通过验证器增强的自博弈生成高质量数学推理难题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 数学推理 问题生成 自博弈 验证器 大型语言模型
📋 核心要点
- 现有LLM在生成高质量数学问题方面存在不足,依赖人工或简单自博弈易产生无效问题。
- VHG框架引入独立的验证器,与设置者-求解者构成三方博弈,确保问题有效性和难度。
- 实验表明,VHG在不定积分和通用数学推理任务上显著优于现有方法,提升问题质量。
📝 摘要(中文)
大型语言模型(LLM)在解决科学和数学问题方面表现出强大的能力,但它们在生成有效、具有挑战性和新颖的问题方面存在困难,而这对于推进LLM训练和实现自主科学研究至关重要。现有的问题生成方法要么依赖于昂贵的人工专家参与,要么采用简单的自博弈范式,由于奖励利用(reward hacking)而经常产生无效的问题。本研究提出了VHG,一个基于三方自博弈的验证器增强的难题生成框架。通过将独立的验证器集成到传统的设置者-求解者二元性中,我们的设计将设置者的奖励约束为由问题有效性(由验证器评估)和难度(由求解者评估)共同决定。我们实例化了两种验证器变体:硬符号验证器和基于软LLM的验证器,并在不定积分任务和一般数学推理任务上进行了评估。实验结果表明,VHG明显优于所有基线方法。
🔬 方法详解
问题定义:论文旨在解决LLM难以生成高质量、有效且具有挑战性的数学推理问题的问题。现有方法要么依赖昂贵的人工专家,要么采用容易产生无效问题的自博弈策略,缺乏对问题有效性的有效约束。这些问题阻碍了LLM在数学推理领域的进一步发展和应用。
核心思路:论文的核心思路是引入一个独立的验证器(Verifier)来评估生成问题的有效性,并将其与传统的设置者(Setter)-求解者(Solver)自博弈框架相结合。通过三方博弈,设置者生成问题,求解者尝试解决问题,验证器评估问题的有效性。设置者的奖励由验证器和求解者的表现共同决定,从而鼓励生成既有效又具有挑战性的问题。
技术框架:VHG框架包含三个主要模块:设置者(Setter)、求解者(Solver)和验证器(Verifier)。设置者负责生成数学问题,求解者负责尝试解决这些问题,验证器负责评估生成问题的有效性。整个流程是一个循环迭代的过程,设置者根据求解者和验证器的反馈不断改进问题生成策略。框架通过奖励机制来引导设置者生成高质量的问题,奖励函数综合考虑了问题的有效性和难度。
关键创新:VHG的关键创新在于引入了独立的验证器,将传统的双人自博弈扩展为三人博弈。这种设计有效地解决了奖励利用问题,确保生成的问题不仅具有挑战性,而且是有效的。此外,论文还提出了两种不同的验证器实现方式:硬符号验证器和基于软LLM的验证器,以适应不同的任务和场景。
关键设计:论文设计了两种验证器:硬符号验证器和软LLM验证器。硬符号验证器依赖于符号计算规则来严格验证问题的有效性,适用于具有明确规则的数学问题,例如不定积分。软LLM验证器则利用LLM的推理能力来评估问题的有效性,适用于更一般的数学推理问题。奖励函数的设计至关重要,它需要平衡问题的有效性和难度,以鼓励设置者生成既有效又具有挑战性的问题。具体参数设置和损失函数细节在论文中有详细描述,但此处不便展开。
🖼️ 关键图片
📊 实验亮点
实验结果表明,VHG在不定积分和通用数学推理任务上均显著优于基线方法。例如,在不定积分任务中,VHG生成的难题使得求解器的解决率显著下降,表明其生成的问题更具挑战性。在通用数学推理任务中,VHG生成的问题的有效性和难度均高于基线方法,证明了VHG框架的有效性。
🎯 应用场景
VHG框架可应用于自动化数学题库生成、LLM数学能力评测与提升、以及辅助科学研究等领域。通过生成高质量的数学问题,可以更有效地训练和评估LLM的数学推理能力,并推动LLM在科学发现中的应用。该框架还可扩展到其他需要问题生成和验证的领域,例如编程教育和逻辑推理。
📄 摘要(原文)
Large Language Models (LLMs) demonstrate strong capabilities for solving scientific and mathematical problems, yet they struggle to produce valid, challenging, and novel problems - an essential component for advancing LLM training and enabling autonomous scientific research. Existing problem generation approaches either depend on expensive human expert involvement or adopt naive self-play paradigms, which frequently yield invalid problems due to reward hacking. This work introduces VHG, a verifier-enhanced hard problem generation framework built upon three-party self-play. By integrating an independent verifier into the conventional setter-solver duality, our design constrains the setter's reward to be jointly determined by problem validity (evaluated by the verifier) and difficulty (assessed by the solver). We instantiate two verifier variants: a Hard symbolic verifier and a Soft LLM-based verifier, with evaluations conducted on indefinite integral tasks and general mathematical reasoning tasks. Experimental results show that VHG substantially outperforms all baseline methods by a clear margin.