Explaining Neural Networks in Preference Learning: a Post-hoc Inductive Logic Programming Approach

作者: Daniele Fossemò, Filippo Mignosi, Giuseppe Placidi, Luca Raggioli, Matteo Spezialetti, Fabio Aurelio D'Asaro

分类: cs.AI, cs.LG

发布日期: 2026-04-08

备注: Under consideration for publication in Theory and Practice of Logic Programming (TPLP)

💡 一句话要点

提出基于归纳逻辑编程的后验方法，解释偏好学习中的神经网络。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 神经网络解释性 偏好学习 归纳逻辑编程 答案集编程 主成分分析

📋 核心要点

神经网络在偏好学习中表现出色，但缺乏可解释性，限制了其在需要透明决策的应用中的使用。
利用归纳逻辑编程（ILASP）从神经网络的行为中学习规则，从而近似神经网络，提供可解释的偏好模型。
通过在食谱偏好数据集上的实验，验证了ILASP作为全局和局部近似器的有效性，并探索了PCA降维以提高效率。

📝 摘要（中文）

本文提出了一种利用从答案集学习（Learning from Answer Sets）来近似黑盒模型（如神经网络NN）的方法，特别针对学习用户偏好的场景。我们探索了使用ILASP（归纳学习答案集程序）通过弱约束来近似偏好学习系统。我们创建了一个关于用户对一系列食谱偏好的数据集，并用它来训练神经网络，然后尝试用ILASP来近似这些神经网络。我们的实验研究了ILASP作为神经网络的全局和局部近似器的性能。这些实验旨在应对在高维特征空间中近似神经网络的挑战，同时在目标模型上实现适当的保真度，并限制计算时间的增加。为了应对这一挑战，我们提出了一种预处理步骤，该步骤利用主成分分析来降低数据集的维度，同时保持解释的透明性。

🔬 方法详解

问题定义：论文旨在解决神经网络在偏好学习任务中缺乏可解释性的问题。虽然神经网络能够有效地学习用户偏好，但其内部决策过程难以理解，这限制了它们在需要透明度和可信度的应用场景中的应用。现有方法通常难以在模型精度和可解释性之间取得平衡。

核心思路：论文的核心思路是使用归纳逻辑编程（ILASP）来近似已训练的神经网络。ILASP能够从示例中学习逻辑规则，这些规则可以用来解释神经网络的决策过程。通过将神经网络的输入输出作为ILASP的训练数据，可以学习到一组逻辑规则，这些规则能够以人类可理解的方式描述神经网络的行为。

技术框架：整体框架包含以下几个主要步骤：1) 创建食谱偏好数据集；2) 使用该数据集训练神经网络；3) 将神经网络的输入输出作为ILASP的训练数据；4) 使用ILASP学习逻辑规则，这些规则近似神经网络的行为；5) 使用主成分分析（PCA）进行预处理，降低数据维度，提高ILASP的学习效率。

关键创新：论文的关键创新在于将归纳逻辑编程应用于解释偏好学习中的神经网络。与传统的模型解释方法相比，ILASP能够生成符号化的、人类可理解的规则，从而提供更深层次的解释。此外，论文还探索了使用PCA进行预处理，以提高ILASP在高维数据上的学习效率，同时保持解释的透明性。

关键设计：论文使用ILASP作为归纳学习工具，通过弱约束来学习逻辑规则。具体来说，论文将神经网络的输入作为ILASP的事实，将神经网络的输出作为ILASP的答案集。ILASP的目标是学习一组规则，使得这些规则能够尽可能地生成与神经网络输出一致的答案集。论文还探索了不同的PCA降维策略，以平衡模型精度和可解释性。

📊 实验亮点

实验结果表明，ILASP能够有效地近似偏好学习中的神经网络，并在模型精度和可解释性之间取得较好的平衡。通过PCA降维，可以显著提高ILASP的学习效率，同时保持解释的透明性。具体性能数据未知，但论文强调了在高维特征空间中近似神经网络并保持适当保真度的挑战。

🎯 应用场景

该研究成果可应用于推荐系统、个性化搜索、决策支持系统等领域。通过提供可解释的偏好模型，可以提高用户对系统的信任度，并帮助用户理解系统的推荐或决策依据。此外，该方法还可以用于调试和优化神经网络，发现潜在的偏差或错误。

📄 摘要（原文）

In this paper, we propose using Learning from Answer Sets to approximate black-box models, such as Neural Networks (NN), in the specific case of learning user preferences. We specifically explore the use of ILASP (Inductive Learning of Answer Set Programs) to approximate preference learning systems through weak constraints. We have created a dataset on user preferences over a set of recipes, which is used to train the NNs that we aim to approximate with ILASP. Our experiments investigate ILASP both as a global and a local approximator of the NNs. These experiments address the challenge of approximating NNs working on increasingly high-dimensional feature spaces while achieving appropriate fidelity on the target model and limiting the increase in computational time. To handle this challenge, we propose a preprocessing step that exploits Principal Component Analysis to reduce the dataset's dimensionality while keeping our explanations transparent. Under consideration for publication in Theory and Practice of Logic Programming (TPLP).

Explaining Neural Networks in Preference Learning: a Post-hoc Inductive Logic Programming Approach

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理