Automated Proving of Shannon-Type Entropy Inequalities via Fine-Tuned Language Models and Guided Tree Search

作者: Shing Yin Wong, Shaocheng Liu, Linqi Song, Amin Gohari, Cheuk Ting Li

分类: cs.IT, cs.LG

发布日期: 2026-06-04

💡 一句话要点

提出基于微调语言模型的自动化香农熵不等式证明方法

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 熵不等式 自动证明 语言模型 引导树搜索 信息论 组合搜索 微调技术

📋 核心要点

现有方法在证明香农熵不等式时面临组合搜索问题，随着随机变量数量增加，效率显著降低。
论文提出通过微调小规模语言模型并结合引导树搜索的方法，旨在自动化熵不等式的证明过程。
实验结果显示，微调后的0.6B模型在树搜索中达到了85%的成功率，显著优于其他基线模型。

📝 摘要（中文）

证明香农类型的熵不等式是信息论中的一项基本任务，通常需要构造已知约束的非平凡线性组合，这是一种随着随机变量数量增加而扩展困难的组合搜索问题。本文探讨了小规模的大型语言模型（参数量为0.6B至1.7B），通过微调原子证明步骤并结合引导树搜索，能否自动化这一过程。在一个包含60个不等式的测试集上，微调后的0.6B模型在树搜索中实现了85%的证明成功率，而GPT-5.5在零-shot提示下仅解决了1.7%的样本，Psitip解决了33.3%的样本。系统的消融研究表明，4096-token的非偏态训练分布表现最佳，扩展上下文和偏态数据未带来边际收益。我们还识别了两种主要的失败模式——格式失败和步骤质量下降，并通过控制消融验证了束评分启发式的重要性。

🔬 方法详解

问题定义：本文旨在解决香农类型熵不等式的自动证明问题。现有方法在处理随机变量数量增加时，组合搜索效率低下，难以应对复杂的证明任务。

核心思路：通过微调小规模的语言模型，使其能够理解和生成原子证明步骤，并结合引导树搜索策略，以提高证明的自动化程度和成功率。

技术框架：整体架构包括数据准备、模型微调和引导树搜索三个主要模块。首先，收集并标注原子证明步骤数据；其次，微调语言模型以适应特定的证明任务；最后，利用引导树搜索策略进行有效的组合搜索。

关键创新：最重要的技术创新在于将微调语言模型与引导树搜索相结合，显著提升了证明成功率，与传统方法相比，能够更有效地处理复杂的组合搜索问题。

关键设计：在模型微调过程中，采用了4096-token的非偏态训练分布，并通过消融实验验证了束评分启发式的重要性，确保了模型在实际应用中的高效性。

📊 实验亮点

实验结果显示，微调后的0.6B模型在树搜索中实现了85%的证明成功率，而对比基线模型如GPT-5.5仅为1.7%，Psitip为33.3%。此外，消融实验表明，束评分启发式对成功率至关重要，随机评分导致成功率从83%降至23%。

🎯 应用场景

该研究的潜在应用领域包括信息论、密码学和机器学习等领域，能够为复杂的数学证明提供自动化工具，降低人力成本，提高效率。未来，该方法可能在其他需要组合搜索的领域中得到推广，推动相关研究的发展。

📄 摘要（原文）

Proving Shannon-type entropy inequalities is a fundamental task in information theory that often requires constructing non-trivial linear combinations of known constraints, which is a combinatorial search problem that scales poorly with the number of random variables. We investigate whether small-scale large language models (0.6B--1.7B parameters), fine-tuned on atomic proof steps and combined with guided beam search, can automate this process. On a held-out test set of 60 inequalities spanning n=10 to 15 variables, our 0.6B fine-tuned model achieves an 85\% proof success rate with tree search. GPT-5.5 solves 1.7\% samples under zero-shot prompting while Psitip solves 33.3\% samples. A systematic ablation study across training context length (4096 vs.\ 8192 tokens) and data distribution (n=9-skewed vs not skewed) reveals that a 4096-token not skewed training distribution yields the best performance, with extended context and skewed data providing no marginal benefit. We further identify two dominant failure modes -- format failures and step quality degradation -- and verify that the beam-scoring heuristic is essential via a controlled ablation (random scoring reduces success from 83\% to 23\%).

Automated Proving of Shannon-Type Entropy Inequalities via Fine-Tuned Language Models and Guided Tree Search

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理