Visual Perceptual to Conceptual First-Order Rule Learning Networks

📄 arXiv: 2604.07897v1 📥 PDF

作者: Kun Gao, Davide Soldà, Thomas Eiter, Katsumi Inoue

分类: cs.AI, cs.LG

发布日期: 2026-04-09


💡 一句话要点

提出γILP框架,解决从图像数据中学习一阶规则并自动生成谓词的难题。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 规则学习 归纳逻辑编程 可解释人工智能 图像推理 谓词发明

📋 核心要点

  1. 现有规则学习方法主要针对符号数据,无法直接应用于图像数据,且难以自动生成谓词。
  2. γILP框架通过可微的图像常量替换和规则结构归纳,实现了从图像数据中学习规则的能力。
  3. 实验结果表明,γILP在符号关系数据集、关系图像数据和纯图像数据集上均表现出色。

📝 摘要(中文)

规则学习在深度学习中扮演着关键角色,尤其是在可解释人工智能和增强大型语言模型的推理能力方面。现有的规则学习方法主要针对符号数据设计,而从图像数据中学习规则,且无需图像标签并自动生成谓词,仍然是一个挑战。本文提出了一个名为γILP的框架,旨在解决这些从图像进行归纳规则学习的问题。γILP提供了一个完全可微的流程,从图像常量替换到规则结构归纳。大量实验表明,γILP不仅在经典的符号关系数据集上,而且在关系图像数据和纯图像数据集(如Kandinsky图案)上都取得了强大的性能。

🔬 方法详解

问题定义:论文旨在解决从图像数据中进行归纳规则学习的问题,具体来说,就是如何在没有图像标签的情况下,从图像中学习一阶逻辑规则,并自动发现和定义规则中的谓词。现有方法主要针对符号数据,无法直接应用于图像,且需要人工定义谓词,限制了其应用范围。

核心思路:论文的核心思路是将图像数据转换为可用于规则学习的符号表示,并设计一个完全可微的流程,使得规则学习过程可以端到端地进行优化。通过可微的图像常量替换,将图像中的对象和关系转换为符号常量,然后利用归纳逻辑编程(ILP)技术学习规则。

技术框架:γILP框架包含以下主要模块:1) 图像常量替换模块:将图像中的对象和关系转换为符号常量。该模块利用卷积神经网络(CNN)提取图像特征,并使用注意力机制选择重要的特征作为常量。2) 规则结构归纳模块:利用归纳逻辑编程(ILP)技术,从符号常量中学习一阶逻辑规则。该模块使用可微的逻辑算子,使得规则学习过程可以进行梯度下降优化。3) 规则评估模块:评估学习到的规则的质量。该模块使用逻辑回归模型,根据规则的预测结果计算损失函数。

关键创新:γILP的关键创新在于:1) 提出了一个完全可微的图像常量替换模块,实现了从图像到符号表示的自动转换。2) 将归纳逻辑编程技术与深度学习相结合,实现了端到端的规则学习。3) 能够自动发现和定义规则中的谓词,无需人工干预。

关键设计:图像常量替换模块使用CNN提取图像特征,并使用注意力机制选择重要的特征作为常量。规则结构归纳模块使用可微的逻辑算子,例如可微的合取、析取和否定算子。损失函数采用交叉熵损失,用于衡量规则预测结果与真实标签之间的差异。网络结构采用模块化设计,可以灵活地组合不同的模块。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,γILP在经典的符号关系数据集上取得了与现有方法相当的性能,并在关系图像数据和纯图像数据集(如Kandinsky图案)上取得了显著的性能提升。例如,在Kandinsky数据集上,γILP的准确率达到了90%以上,超过了其他基线方法。

🎯 应用场景

该研究成果可应用于多个领域,例如:可解释人工智能,通过学习规则来解释图像分类器的决策过程;机器人视觉,使机器人能够理解和推理场景中的对象和关系;知识图谱构建,从图像数据中自动提取知识并构建知识图谱。该研究有助于提升人工智能系统的可解释性和推理能力。

📄 摘要(原文)

Learning rules plays a crucial role in deep learning, particularly in explainable artificial intelligence and enhancing the reasoning capabilities of large language models. While existing rule learning methods are primarily designed for symbolic data, learning rules from image data without supporting image labels and automatically inventing predicates remains a challenge. In this paper, we tackle these inductive rule learning problems from images with a framework called γILP, which provides a fully differentiable pipeline from image constant substitution to rule structure induction. Extensive experiments demonstrate that γILP achieves strong performance not only on classical symbolic relational datasets but also on relational image data and pure image datasets, such as Kandinsky patterns.