Learning to Disprove: Formal Counterexample Generation with Large Language Models

📄 arXiv: 2603.19514v1 📥 PDF

作者: Zenan Li, Zhaoyu Li, Kaiyu Yang, Xiaoxing Ma, Zhendong Su

分类: cs.AI

发布日期: 2026-03-19


💡 一句话要点

提出基于大语言模型的形式化反例生成方法,提升数学推理能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 反例生成 大型语言模型 形式化验证 定理证明 符号变异 专家迭代 数学推理

📋 核心要点

  1. 现有AI在数学推理中侧重证明构造,忽略了反例生成,限制了其解决复杂数学问题的能力。
  2. 论文提出一种基于LLM的形式化反例生成方法,通过生成可验证的证明来确保反例的正确性。
  3. 引入符号变异策略生成多样化训练数据,结合多奖励专家迭代框架,显著提升反例生成和定理证明性能。

📝 摘要(中文)

数学推理需要构造严谨的证明和发现反例两种互补技能。然而,当前人工智能在数学领域的研究几乎只关注证明构造,忽略了寻找反例这一同样重要的任务。本文通过微调大型语言模型(LLMs)来推理和生成反例,弥补了这一空白。我们将此任务形式化为形式化反例生成,要求LLMs不仅提出候选反例,还要生成可在Lean 4定理证明器中自动验证的形式化证明。为了实现有效的学习,我们引入了一种符号变异策略,通过系统地提取定理并丢弃选定的假设来合成多样化的训练数据,从而产生多样化的反例实例。结合精心策划的数据集,该策略支持多奖励专家迭代框架,从而大大提高了训练LLMs进行反例生成和定理证明的有效性和效率。在三个新收集的基准测试上的实验验证了我们方法的优势,表明变异策略和训练框架产生了显著的性能提升。

🔬 方法详解

问题定义:现有AI在数学推理领域的研究主要集中在定理证明上,而忽略了反例的生成。反例生成在数学研究中同样重要,它可以帮助我们发现错误的猜想,从而避免在错误的道路上浪费时间。现有的方法缺乏有效生成和验证反例的能力,尤其是在形式化的数学环境中,需要能够被定理证明器验证的反例。

核心思路:论文的核心思路是利用大型语言模型(LLMs)的强大推理能力,通过微调LLMs使其能够生成候选反例,并同时生成该反例的形式化证明。这种方法将反例生成问题转化为一个序列生成问题,并利用定理证明器来验证生成的反例是否有效。通过这种方式,可以有效地提高反例生成的准确性和可靠性。

技术框架:整体框架包含以下几个主要模块:1) 数据集构建:收集和整理现有的数学定理和反例数据,并利用符号变异策略生成新的训练数据。2) 模型微调:使用收集到的数据对LLMs进行微调,使其能够生成候选反例和对应的形式化证明。3) 验证模块:使用Lean 4定理证明器对生成的反例进行验证,判断其是否有效。4) 多奖励专家迭代框架:根据验证结果对模型进行迭代训练,不断提高反例生成的准确性和效率。

关键创新:论文的关键创新在于以下几个方面:1) 形式化反例生成:将反例生成问题形式化,要求生成的反例能够被定理证明器验证。2) 符号变异策略:提出了一种新的数据增强方法,通过系统地提取定理和丢弃选定的假设来生成多样化的训练数据。3) 多奖励专家迭代框架:设计了一种新的训练框架,可以有效地利用验证结果来指导模型的训练。

关键设计:符号变异策略是关键设计之一,它通过随机移除定理中的假设条件来创造新的、可能为假的命题,从而生成反例。多奖励专家迭代框架则根据Lean 4验证结果提供奖励信号,引导LLM生成更有效的反例。具体而言,奖励函数的设计需要平衡生成反例的成功率和证明的简洁性。此外,模型采用标准的Transformer架构,并针对数学推理任务进行了微调。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,提出的符号变异策略和多奖励专家迭代框架能够显著提高LLMs在反例生成和定理证明方面的性能。在三个新收集的基准测试上,该方法相比于基线方法取得了显著的性能提升,尤其是在复杂数学问题的反例生成方面,性能提升尤为明显。具体数据未知,但原文强调了性能的显著提升。

🎯 应用场景

该研究成果可应用于自动化定理证明、数学教育、程序验证等领域。在自动化定理证明中,可以辅助发现和排除错误的猜想,提高定理证明的效率。在数学教育中,可以帮助学生更好地理解数学概念和定理。在程序验证中,可以用于发现程序中的错误和漏洞。

📄 摘要(原文)

Mathematical reasoning demands two critical, complementary skills: constructing rigorous proofs for true statements and discovering counterexamples that disprove false ones. However, current AI efforts in mathematics focus almost exclusively on proof construction, often neglecting the equally important task of finding counterexamples. In this paper, we address this gap by fine-tuning large language models (LLMs) to reason about and generate counterexamples. We formalize this task as formal counterexample generation, which requires LLMs not only to propose candidate counterexamples but also to produce formal proofs that can be automatically verified in the Lean 4 theorem prover. To enable effective learning, we introduce a symbolic mutation strategy that synthesizes diverse training data by systematically extracting theorems and discarding selected hypotheses, thereby producing diverse counterexample instances. Together with curated datasets, this strategy enables a multi-reward expert iteration framework that substantially enhances both the effectiveness and efficiency of training LLMs for counterexample generation and theorem proving. Experiments on three newly collected benchmarks validate the advantages of our approach, showing that the mutation strategy and training framework yield significant performance gains.