On Compositional Learning Behaviours in Formal Mathematics

作者: Kevin Yandoka Denamganaï

分类: cs.CL

发布日期: 2026-05-27

备注: work in progress, under review

💡 一句话要点

提出S2B-LM基准，研究形式化数学中组合学习行为对定理证明的影响。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 形式化数学 定理证明 组合学习 思维链 基准测试

📋 核心要点

现有定理证明模型在处理复杂形式化数学问题时，缺乏组合学习能力，难以泛化到新的符号结构。
论文提出S2B-LM基准，通过移除数值混淆和引入思维链，更有效地评估模型的组合学习行为。
实验表明，组合学习能力是模型在形式化数学难题上取得高性能的必要条件，但并非充分条件。

📝 摘要（中文）

为了使能够征服形式化数学难题的自进化科学智能体成为可能，需要组合学习行为(CLBs)——即在上下文中扎根并重组新的符号结构的能力，而不仅仅是预先学习的原子符号的重组。我们提出了S2B-LM，它是符号行为基准的一个改进版本，消除了数值处理的混淆，并增加了思维链脚手架，以引出而非仅仅探测潜在的CLB能力。通过在CLB能力(adj-ZSCT)和miniF2F整体证明性能上交叉评估十个Lean 4定理证明器，精确的排列测试建立了一个分层必要结构：重搜索模型覆盖了易于处理的大部分，而没有可检测的CLB，但每个突破奥林匹克级别(miniF2F >75%)的模型都在五个最高的CLB得分者之列(p=0.004)。在排除模型规模作为混淆因素后，我们的结果表明，CLB能力对于形式化数学验证的难题是必要但不充分的。

🔬 方法详解

问题定义：论文旨在解决形式化数学定理证明中，现有模型缺乏有效组合学习能力的问题。现有方法往往侧重于对预定义符号的简单重组，难以处理需要创造性组合新符号结构的复杂问题，导致在形式化数学难题上表现不佳。

核心思路：论文的核心思路是通过设计新的基准测试（S2B-LM），更准确地评估模型在形式化数学领域的组合学习行为（CLBs）。通过引入思维链（Chain-of-Thought）提示，引导模型展示其推理过程，从而更有效地激发和评估其潜在的组合学习能力。

技术框架：S2B-LM基准是基于Symbolic Behaviour Benchmark的改进版本。主要改进包括：1) 移除数值处理，避免数值计算对组合学习能力的干扰；2) 引入思维链脚手架，鼓励模型逐步推理，从而更清晰地展现其组合学习过程。论文使用该基准评估了十个Lean 4定理证明器，并结合miniF2F基准评估了模型的整体证明性能。

关键创新：论文的关键创新在于提出了S2B-LM基准，该基准能够更有效地评估模型在形式化数学领域的组合学习行为。与传统基准相比，S2B-LM通过移除数值混淆和引入思维链，能够更准确地衡量模型在符号结构上的组合和泛化能力。

关键设计：S2B-LM基准的设计关键在于：1) 题目设计：题目需要能够考察模型对新符号结构的创造性组合能力；2) 思维链提示：思维链提示需要能够引导模型逐步推理，并清晰地展现其组合学习过程；3) 评估指标：评估指标需要能够准确地衡量模型的组合学习能力，例如adj-ZSCT指标。

📊 实验亮点

实验结果表明，在miniF2F基准上取得超过75%性能的模型，均在S2B-LM基准上获得了较高的组合学习能力得分(p=0.004)，表明组合学习能力是解决形式化数学难题的必要条件。同时，实验也发现，仅具备高组合学习能力并不足以保证在miniF2F上取得优异成绩，说明还需要其他因素的配合。

🎯 应用场景

该研究成果可应用于开发更强大的自动化定理证明器，提升数学研究效率。此外，组合学习能力的研究对于通用人工智能的发展具有重要意义，有助于构建具备更强推理和泛化能力的智能系统，应用于科学发现、软件验证等领域。

📄 摘要（原文）

Self-evolving scientific agents capable of conquering the hard tail of formal mathematics require Compositional Learning Behaviours (CLBs) -- the capacity to ground and recombine novel symbolic structures in context, beyond mere recombination of prelearned atoms. We propose \textbf{S2B-LM}, an adaptation of the Symbolic Behaviour Benchmark that removes numerical processing as a confound and adds chain-of-thought scaffolding to elicit rather than merely probe latent CLB competency. Cross-evaluating ten Lean~4 theorem provers on CLB competency (adj-ZSCT) and miniF2F whole-proof performance, exact permutation tests establish a hierarchical necessity structure: search-heavy models cover the tractable bulk without detectable CLBs, yet every model breaking into the Olympiad-level tier (miniF2F $>75\%$) is among the five highest CLB scorers ($p=0.004$). After ruling out model scale as a confound, our results show that CLB competency is \emph{necessary but not sufficient} for the hard tail of formal mathematical verification.

On Compositional Learning Behaviours in Formal Mathematics

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理