Verifier-Backed Hard Problem Generation for Mathematical Reasoning

作者: Yuhang Lai, Jiazhan Feng, Yee Whye Teh, Ning Miao

分类: cs.LG, cs.AI, cs.CL

发布日期: 2026-05-07

💡 一句话要点

提出VHG框架，通过验证器增强的自博弈生成高质量数学推理难题

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 数学推理 问题生成 自博弈 验证器 大型语言模型

📋 核心要点

现有LLM在生成高质量数学问题方面存在不足，依赖人工或简单自博弈易产生无效问题。
VHG框架引入独立的验证器，与设置者-求解者构成三方博弈，确保问题有效性和难度。
实验表明，VHG在不定积分和通用数学推理任务上显著优于现有方法，提升问题质量。

📝 摘要（中文）

大型语言模型（LLM）在解决科学和数学问题方面表现出强大的能力，但它们在生成有效、具有挑战性和新颖的问题方面存在困难，而这对于推进LLM训练和实现自主科学研究至关重要。现有的问题生成方法要么依赖于昂贵的人工专家参与，要么采用简单的自博弈范式，由于奖励利用（reward hacking）而经常产生无效的问题。本研究提出了VHG，一个基于三方自博弈的验证器增强的难题生成框架。通过将独立的验证器集成到传统的设置者-求解者二元性中，我们的设计将设置者的奖励约束为由问题有效性（由验证器评估）和难度（由求解者评估）共同决定。我们实例化了两种验证器变体：硬符号验证器和基于软LLM的验证器，并在不定积分任务和一般数学推理任务上进行了评估。实验结果表明，VHG明显优于所有基线方法。

🔬 方法详解

问题定义：论文旨在解决LLM难以生成高质量、有效且具有挑战性的数学推理问题的问题。现有方法要么依赖昂贵的人工专家，要么采用容易产生无效问题的自博弈策略，缺乏对问题有效性的有效约束。这些问题阻碍了LLM在数学推理领域的进一步发展和应用。

核心思路：论文的核心思路是引入一个独立的验证器（Verifier）来评估生成问题的有效性，并将其与传统的设置者（Setter）-求解者（Solver）自博弈框架相结合。通过三方博弈，设置者生成问题，求解者尝试解决问题，验证器评估问题的有效性。设置者的奖励由验证器和求解者的表现共同决定，从而鼓励生成既有效又具有挑战性的问题。

技术框架：VHG框架包含三个主要模块：设置者（Setter）、求解者（Solver）和验证器（Verifier）。设置者负责生成数学问题，求解者负责尝试解决这些问题，验证器负责评估生成问题的有效性。整个流程是一个循环迭代的过程，设置者根据求解者和验证器的反馈不断改进问题生成策略。框架通过奖励机制来引导设置者生成高质量的问题，奖励函数综合考虑了问题的有效性和难度。

关键创新：VHG的关键创新在于引入了独立的验证器，将传统的双人自博弈扩展为三人博弈。这种设计有效地解决了奖励利用问题，确保生成的问题不仅具有挑战性，而且是有效的。此外，论文还提出了两种不同的验证器实现方式：硬符号验证器和基于软LLM的验证器，以适应不同的任务和场景。

关键设计：论文设计了两种验证器：硬符号验证器和软LLM验证器。硬符号验证器依赖于符号计算规则来严格验证问题的有效性，适用于具有明确规则的数学问题，例如不定积分。软LLM验证器则利用LLM的推理能力来评估问题的有效性，适用于更一般的数学推理问题。奖励函数的设计至关重要，它需要平衡问题的有效性和难度，以鼓励设置者生成既有效又具有挑战性的问题。具体参数设置和损失函数细节在论文中有详细描述，但此处不便展开。

🖼️ 关键图片

📊 实验亮点

实验结果表明，VHG在不定积分和通用数学推理任务上均显著优于基线方法。例如，在不定积分任务中，VHG生成的难题使得求解器的解决率显著下降，表明其生成的问题更具挑战性。在通用数学推理任务中，VHG生成的问题的有效性和难度均高于基线方法，证明了VHG框架的有效性。

🎯 应用场景

VHG框架可应用于自动化数学题库生成、LLM数学能力评测与提升、以及辅助科学研究等领域。通过生成高质量的数学问题，可以更有效地训练和评估LLM的数学推理能力，并推动LLM在科学发现中的应用。该框架还可扩展到其他需要问题生成和验证的领域，例如编程教育和逻辑推理。

📄 摘要（原文）

Large Language Models (LLMs) demonstrate strong capabilities for solving scientific and mathematical problems, yet they struggle to produce valid, challenging, and novel problems - an essential component for advancing LLM training and enabling autonomous scientific research. Existing problem generation approaches either depend on expensive human expert involvement or adopt naive self-play paradigms, which frequently yield invalid problems due to reward hacking. This work introduces VHG, a verifier-enhanced hard problem generation framework built upon three-party self-play. By integrating an independent verifier into the conventional setter-solver duality, our design constrains the setter's reward to be jointly determined by problem validity (evaluated by the verifier) and difficulty (assessed by the solver). We instantiate two verifier variants: a Hard symbolic verifier and a Soft LLM-based verifier, with evaluations conducted on indefinite integral tasks and general mathematical reasoning tasks. Experimental results show that VHG substantially outperforms all baseline methods by a clear margin.

Verifier-Backed Hard Problem Generation for Mathematical Reasoning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理