Distilling LLM Feedback for Lean Theorem Proving

作者: Gaetan Narozniak, Gérard Biau, Rémi Munos, Ahmad Rammal, Pierre Marion

分类: cs.AI

发布日期: 2026-05-29

💡 一句话要点

提出Feedback Distillation，利用LLM反馈提升Lean定理证明性能

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 定理证明 强化学习 语言模型 蒸馏学习 反馈机制

📋 核心要点

现有定理证明模型后训练方法（如GRPO）面临奖励稀疏、探索不足和模式崩溃等挑战。
Feedback Distillation通过让模型学习匹配自身在LLM反馈下的token分布，实现token级监督和知识注入。
实验表明，Feedback Distillation能提升轨迹多样性，改善策略熵和pass@k指标，且与GRPO互补。

📝 摘要（中文）

推理模型的后训练通常结合监督微调和来自可验证奖励的强化学习，最常见的是GRPO。然而，该算法存在奖励稀疏、探索有限和模式崩溃的问题。受自蒸馏研究的启发，我们提出了一种名为Feedback Distillation的训练方法，该方法训练模型在token级别上匹配其自身的分布，该分布以语言模型产生的特权反馈为条件。Feedback Distillation提供token级别的监督，并可以注入外部知识。在Lean4定理证明的评估中，我们发现Feedback Distillation比GRPO在生成的轨迹中保持更大的多样性，从而产生更高的策略熵和更好的pass@k缩放。这两种方法是互补的：从Feedback Distillation检查点初始化GRPO优于单独使用任何一种方法。总而言之，我们的结果表明，这是一种有希望的途径来改进复杂推理的后训练。

🔬 方法详解

问题定义：论文旨在解决定理证明任务中，现有强化学习方法（如GRPO）在后训练阶段遇到的问题，包括奖励信号稀疏、探索能力不足以及容易陷入模式崩溃等。这些问题限制了模型在复杂推理任务中的性能提升。

核心思路：论文的核心思路是利用大型语言模型（LLM）提供的反馈作为特权信息，通过蒸馏的方式引导模型学习。具体来说，模型被训练成模仿自身在接收到LLM反馈后生成的token分布。这种方法提供了token级别的监督信号，克服了奖励稀疏的问题，并允许模型从LLM中学习外部知识。

技术框架：Feedback Distillation的整体框架包含以下几个主要步骤：1) 使用一个预训练的定理证明模型作为初始模型。2) 使用该模型生成定理证明的轨迹。3) 使用一个大型语言模型（LLM）对生成的轨迹进行评估，并提供反馈。4) 使用Feedback Distillation算法，训练模型匹配自身在LLM反馈下的token分布。训练目标是最小化模型预测的token分布与目标分布之间的差异，目标分布由模型自身在接收到LLM反馈后生成。

关键创新：该方法最重要的创新点在于利用LLM的反馈作为一种特权信息，通过蒸馏的方式来指导模型的训练。与传统的强化学习方法相比，Feedback Distillation提供了更密集的监督信号，避免了奖励稀疏的问题。此外，该方法还可以将LLM的知识迁移到定理证明模型中，从而提高模型的推理能力。

关键设计：在具体实现上，Feedback Distillation的关键设计包括：1) 使用交叉熵损失函数来衡量模型预测的token分布与目标分布之间的差异。2) 使用Adam优化器来训练模型。3) 可以通过调整LLM反馈的强度来控制知识迁移的程度。4) 可以将Feedback Distillation与GRPO等强化学习方法结合使用，以进一步提高模型的性能。

🖼️ 关键图片

📊 实验亮点

实验结果表明，Feedback Distillation在Lean4定理证明任务上优于传统的GRPO方法。具体来说，Feedback Distillation能够生成更多样化的轨迹，提高策略熵，并改善pass@k指标。此外，将Feedback Distillation与GRPO结合使用可以进一步提高模型的性能，表明这两种方法具有互补性。

🎯 应用场景

该研究成果可应用于定理证明、代码生成、数学问题求解等需要复杂推理能力的领域。通过利用大型语言模型的知识，可以提升模型在这些任务上的性能和泛化能力。此外，该方法还可以推广到其他需要密集监督信号的强化学习任务中，具有广泛的应用前景。

📄 摘要（原文）

Post-training for reasoning models typically combines supervised fine-tuning with reinforcement learning from verifiable rewards, most commonly with GRPO. However, this algorithm suffers from sparse rewards, limited exploration, and mode collapse. Building upon recent works on self-distillation, we propose Feedback Distillation, a training method where the model is trained to match, at the token level, its own distribution conditioned on privileged feedback produced by a language model. Feedback Distillation offers token-level supervision and can inject external knowledge. Evaluating our method for Lean4 theorem-proving, we find that Feedback Distillation maintains greater diversity in generated trajectories than GRPO, yielding higher policy entropy and better pass@k scaling. The two methods are complementary: initializing GRPO from a Feedback Distillation checkpoint outperforms either method alone. All in all, our results suggest a promising avenue to improve post-training for complex reasoning.

Distilling LLM Feedback for Lean Theorem Proving

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理