REAL-Prover: Retrieval Augmented Lean Prover for Mathematical Reasoning

作者: Ziju Shen, Naohao Huang, Fanyi Yang, Yutong Wang, Guoxiong Gao, Tianyi Xu, Jiedong Jiang, Wanyi He, Pu Yang, Mengzhou Sun, Haocheng Ju, Peihao Wu, Bryan Dai, Bin Dong

分类: cs.CL, cs.AI, cs.LG, cs.LO

发布日期: 2025-05-27 (更新: 2025-11-24)

💡 一句话要点

提出REAL-Prover以解决高等数学定理证明问题

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 定理证明 数学推理 自然语言处理 大型语言模型 数据提取 开源工具 教育技术

📋 核心要点

现有的形式定理证明器在高等数学领域的应用有限，难以处理复杂的数学问题。
REAL-Prover通过结合微调的大型语言模型和检索系统，提升了定理证明的效率和准确性。
在实验中，REAL-Prover在ProofNet数据集上取得23.7%的成功率，并在FATE-M基准上达到了56.7%的成功率，表现优异。

📝 摘要（中文）

近年来，形式定理证明器在高中及竞赛数学领域取得了显著进展，但在更高级的数学领域应用较少。本文提出了REAL-Prover，这是一个基于Lean 4的开源逐步定理证明器，旨在拓展这一边界。该证明器基于我们微调的大型语言模型（REAL-Prover-v1）并集成了检索系统（Leansearch-PS），显著提升了解决大学级数学问题的性能。通过开发数据提取管道HERALD-AF，将自然语言数学问题转化为形式化陈述，并创建新的开源Lean 4交互环境（Jixia-interactive）以促进数据收集。实验结果表明，使用仅经过监督微调的证明器在ProofNet数据集上取得了23.7%的成功率，且在新基准FATE-M上达到了56.7%的成功率，表现优于现有最先进模型。

🔬 方法详解

问题定义：本文旨在解决现有形式定理证明器在高等数学领域应用不足的问题，尤其是在处理复杂的数学问题时的局限性。现有方法往往无法有效推广到更高级的数学领域。

核心思路：REAL-Prover的核心思路是结合微调的大型语言模型与检索系统，以增强定理证明的能力。这种设计旨在通过更好地理解和处理自然语言数学问题，提升证明的成功率。

技术框架：REAL-Prover的整体架构包括三个主要模块：微调的大型语言模型（REAL-Prover-v1）、检索系统（Leansearch-PS）和数据提取管道（HERALD-AF）。数据提取管道负责将自然语言问题转化为形式化陈述，检索系统则用于辅助证明过程。

关键创新：REAL-Prover的主要创新在于其数据提取管道HERALD-AF和新创建的交互环境Jixia-interactive。这些创新使得从自然语言到形式化陈述的转换更加高效，进而提升了定理证明的整体性能。

关键设计：在模型训练中，采用了监督微调的方法，优化了模型的参数设置和损失函数，以确保在特定数学问题上的表现。同时，Leansearch-PS检索系统的设计也为模型提供了更丰富的上下文信息，增强了证明的准确性。

📊 实验亮点

在实验中，REAL-Prover在ProofNet数据集上取得了23.7%的成功率，表现与现有最先进模型相当。而在新提出的FATE-M基准上，REAL-Prover的成功率达到了56.7%，显示出显著的性能提升，证明了其在处理代数问题上的有效性。

🎯 应用场景

REAL-Prover的研究成果在教育、数学研究和自动化定理证明等领域具有广泛的应用潜力。它可以帮助学生和研究人员更高效地解决复杂的数学问题，推动数学教育的智能化发展。此外，随着技术的进步，REAL-Prover可能在其他领域的知识推理和自动化决策中发挥重要作用。

📄 摘要（原文）

Nowadays, formal theorem provers have made monumental progress on high-school and competition-level mathematics, but few of them generalize to more advanced mathematics. In this paper, we present REAL-Prover, a new open-source stepwise theorem prover for Lean 4 to push this boundary. This prover, based on our fine-tuned large language model (REAL-Prover-v1) and integrated with a retrieval system (Leansearch-PS), notably boosts performance on solving college-level mathematics problems. To train REAL-Prover-v1, we developed HERALD-AF, a data extraction pipeline that converts natural language math problems into formal statements, and a new open-source Lean 4 interactive environment (Jixia-interactive) to facilitate synthesis data collection. In our experiments, our prover using only supervised fine-tune achieves competitive results with a 23.7% success rate (Pass@64) on the ProofNet dataset-comparable to state-of-the-art (SOTA) models. To further evaluate our approach, we introduce FATE-M, a new benchmark focused on algebraic problems, where our prover achieves a SOTA success rate of 56.7% (Pass@64).

REAL-Prover: Retrieval Augmented Lean Prover for Mathematical Reasoning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册