A Foundation Model for Zero-Shot Logical Rule Induction

📄 arXiv: 2605.04916v1 📥 PDF

作者: Yin Jun Phua

分类: cs.AI, cs.LG, cs.SC

发布日期: 2026-05-06

备注: Camera-ready version accepted at IJCAI 2026, with full appendices

🔗 代码/项目: GITHUB


💡 一句话要点

提出神经规则归纳器NRI,用于零样本逻辑规则归纳的基础模型。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 归纳逻辑编程 零样本学习 规则归纳 基础模型 符号推理

📋 核心要点

  1. 现有归纳逻辑编程方法是直推式的,需要为每个新任务重新训练,泛化能力弱。
  2. NRI通过学习领域无关的统计属性来表示字面量,实现跨任务的零样本规则归纳。
  3. NRI采用并行槽式解码器和可微的规则执行,并验证了其在规则恢复和鲁棒性上的有效性。

📝 摘要(中文)

归纳逻辑编程(ILP)从数据中学习可解释的逻辑规则。现有方法是直推式的:它们学习的参数绑定到特定的谓词,并且需要为每个新任务重新训练。我们引入了神经规则归纳器(NRI),这是一个用于零样本规则归纳的预训练模型。NRI不编码字面量标识,而是使用领域无关的统计属性(如类条件率、熵和共现性)来表示字面量,这些属性可以跨变量标识和计数进行泛化,而无需重新训练。该模型由统计编码器和平行槽式解码器组成。并行解码保留了逻辑析取的置换不变性;而自回归解码器会施加任意的子句顺序。乘积T范数松弛使得规则执行可微,从而允许仅基于预测精度进行端到端训练。我们在规则恢复、对标签噪声和虚假相关性的鲁棒性以及零样本迁移到真实世界基准上评估了NRI,我们相信这项工作开启了符号推理基础模型的可能性。代码和参考检查点可在https://github.com/phuayj/neural-rule-inducer获得。

🔬 方法详解

问题定义:现有的归纳逻辑编程方法存在泛化能力差的问题。具体来说,这些方法学习到的参数与特定的谓词绑定,因此当面对新的任务或数据集时,需要重新进行训练。这限制了它们在实际应用中的灵活性和效率。

核心思路:NRI的核心思路是学习一种与领域无关的字面量表示,这种表示不依赖于具体的谓词标识,而是基于统计属性,例如类条件概率、熵和共现性。通过这种方式,模型可以泛化到新的任务,而无需重新训练。

技术框架:NRI由两个主要模块组成:统计编码器和平行槽式解码器。统计编码器负责将输入数据转换为字面量的统计表示。平行槽式解码器则负责从这些表示中生成逻辑规则。为了实现端到端训练,NRI使用了乘积T范数松弛,使得规则执行过程可微。

关键创新:NRI的关键创新在于其领域无关的字面量表示和平行槽式解码器。领域无关的表示使得模型可以泛化到新的任务,而平行槽式解码器则保证了逻辑析取的置换不变性,避免了自回归解码器引入的任意子句顺序。

关键设计:NRI的关键设计包括:1) 使用类条件率、熵和共现性等统计属性来表示字面量;2) 采用平行槽式解码器来生成逻辑规则;3) 使用乘积T范数松弛来实现可微的规则执行;4) 通过端到端训练来优化模型的预测精度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,NRI在规则恢复、对标签噪声和虚假相关性的鲁棒性以及零样本迁移到真实世界基准上均表现出色。具体来说,NRI在规则恢复任务上取得了显著的性能提升,并且对标签噪声和虚假相关性具有很强的抵抗能力。此外,NRI还成功地零样本迁移到多个真实世界基准上,证明了其良好的泛化能力。

🎯 应用场景

该研究成果可应用于知识发现、智能决策、自动化推理等领域。例如,可以利用NRI从医疗数据中自动发现疾病诊断规则,或从金融数据中提取风险控制策略。该研究为符号推理和机器学习的结合提供了新的思路,有望推动人工智能领域的发展。

📄 摘要(原文)

Inductive Logic Programming (ILP) learns interpretable logical rules from data. Existing methods are transductive: their learned parameters are bound to specific predicates and require retraining for each new task. We introduce Neural Rule Inducer (NRI), a pretrained model for zero-shot rule induction. Rather than encoding literal identities, NRI represents literals using domain-agnostic statistical properties such as class-conditional rates, entropy, and co-occurrence, which generalize across variable identities and counts without retraining. The model consists of a statistical encoder and a parallel slot-based decoder. Parallel decoding preserves the permutation invariance of logical disjunction; an autoregressive decoder would instead impose an arbitrary clause order. Product T-norm relaxation makes rule execution differentiable, allowing end-to-end training on prediction accuracy alone. We evaluate NRI on rule recovery, robustness to label noise and spurious correlations, and zero-shot transfer to real-world benchmarks, and we believe this work opens up the possibility of foundation models for symbolic reasoning. Code and the reference checkpoint are available at https://github.com/phuayj/neural-rule-inducer.