LeanCat: A Benchmark Suite for Formal Category Theory in Lean (Part I: 1-Categories)

作者: Rongge Xu, Hui Dai, Yiming Fu, Jiedong Jiang, Tianjiao Nie, Hongwei Wang, Junkai Wang, Holiverse Yang, Jiatong Yang, Zhi-Hao Zhang

分类: cs.LO, cs.AI, cs.FL, cs.LG, math.CT

发布日期: 2025-12-31

备注: 11 pages, 4 figures, 1 table

💡 一句话要点

提出LeanCat基准测试集，用于评估LLM在范畴论形式化证明中的能力。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 形式化验证 范畴论 基准测试 大型语言模型 定理证明 Lean 数学推理

📋 核心要点

现有形式化定理证明基准测试难以衡量LLM在抽象和库介导推理方面的能力，这对于现代数学至关重要。
提出LeanCat基准测试集，专注于范畴论的形式化，旨在测试LLM在结构化和接口级推理方面的能力。
实验结果表明，现有模型在LeanCat上的表现仍有很大提升空间，LeanBridge通过搜索Mathlib可以获得性能提升。

📝 摘要（中文）

大型语言模型（LLMs）在形式化定理证明方面取得了快速进展，但目前的基准测试低估了组织现代数学的抽象和库介导推理。与FATE强调前沿代数并行，我们引入LeanCat，一个用于范畴论形式化的Lean基准——一种数学结构的统一语言和现代证明工程的核心层——作为结构化、接口级推理的压力测试。第一部分：1-范畴包含100个完全形式化的语句级任务，通过LLM辅助+人工分级过程整理成主题族和三个难度等级。最佳模型在pass@1时解决了8.25%的任务（简单/中等/高难度分别为32.50%/4.17%/0.00%），在pass@4时解决了12.00%的任务（简单/中等/高难度分别为50.00%/4.76%/0.00%）。我们还评估了使用LeanExplore搜索Mathlib的LeanBridge，并观察到相对于单模型基线的持续提升。LeanCat旨在作为一个紧凑、可重用的检查点，用于跟踪人工智能和人类在Lean中实现可靠的研究级形式化的进展。

🔬 方法详解

问题定义：论文旨在解决大型语言模型在形式化定理证明中，对抽象和库介导推理能力不足的问题。现有的基准测试无法充分评估LLM在组织现代数学结构方面的能力，尤其是在范畴论这种高度抽象的领域。

核心思路：论文的核心思路是构建一个专门针对范畴论形式化的基准测试集LeanCat。通过提供一系列精心设计的任务，LeanCat能够更有效地评估LLM在结构化、接口级推理方面的能力，从而推动LLM在形式化数学领域的发展。

技术框架：LeanCat基准测试集包含100个完全形式化的语句级任务，这些任务被组织成不同的主题族，并根据难度分为三个等级（简单、中等、高）。难度分级由LLM辅助并经过人工审核。论文还评估了LeanBridge，它使用LeanExplore来搜索Mathlib库，以辅助定理证明。

关键创新：LeanCat的关键创新在于其专注于范畴论的形式化。范畴论是现代数学的核心语言，因此LeanCat能够更有效地评估LLM在理解和应用抽象数学概念方面的能力。此外，LeanCat的难度分级机制也使其能够更细致地评估LLM在不同难度级别上的表现。

关键设计：LeanCat中的任务涵盖了1-范畴论的各种基本概念和定理。评估指标包括pass@k，即在k次尝试中至少成功一次的概率。论文还使用了LeanExplore来搜索Mathlib库，以辅助定理证明，并评估了这种方法对性能的影响。

🖼️ 关键图片

📊 实验亮点

最佳模型在LeanCat上pass@1的成绩为8.25%（简单/中等/高难度分别为32.50%/4.17%/0.00%），pass@4的成绩为12.00%（简单/中等/高难度分别为50.00%/4.76%/0.00%）。使用LeanExplore搜索Mathlib的LeanBridge在性能上优于单模型基线，表明利用现有数学库可以显著提升形式化证明能力。

🎯 应用场景

LeanCat可用于评估和提升AI在形式化数学、程序验证、知识表示等领域的应用能力。通过推动AI在范畴论形式化方面的进展，有望加速数学研究和软件开发的自动化，并促进更可靠的软件系统设计。

📄 摘要（原文）

Large language models (LLMs) have made rapid progress in formal theorem proving, yet current benchmarks under-measure the kind of abstraction and library-mediated reasoning that organizes modern mathematics. In parallel with FATE's emphasis on frontier algebra, we introduce LeanCat, a Lean benchmark for category-theoretic formalization -- a unifying language for mathematical structure and a core layer of modern proof engineering -- serving as a stress test of structural, interface-level reasoning. Part I: 1-Categories contains 100 fully formalized statement-level tasks, curated into topic families and three difficulty tiers via an LLM-assisted + human grading process. The best model solves 8.25% of tasks at pass@1 (32.50%/4.17%/0.00% by Easy/Medium/High) and 12.00% at pass@4 (50.00%/4.76%/0.00%). We also evaluate LeanBridge which use LeanExplore to search Mathlib, and observe consistent gains over single-model baselines. LeanCat is intended as a compact, reusable checkpoint for tracking both AI and human progress toward reliable, research-level formalization in Lean.

LeanCat: A Benchmark Suite for Formal Category Theory in Lean (Part I: 1-Categories)

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理