Tractable Representation Learning with Probabilistic Circuits

📄 arXiv: 2507.04385v2 📥 PDF

作者: Steven Braun, Sahil Sidheekh, Antonio Vergari, Martin Mundt, Sriraam Natarajan, Kristian Kersting

分类: cs.LG, cs.AI

发布日期: 2025-07-06 (更新: 2025-07-26)


💡 一句话要点

提出自编码概率电路(APC),用于可解释的表征学习和鲁棒的概率推理。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 概率电路 表征学习 自编码器 缺失数据 概率推理

📋 核心要点

  1. 现有基于概率电路的表征学习方法依赖外部神经嵌入或激活编码,缺乏对概率嵌入的显式建模。
  2. 提出自编码概率电路(APCs),通过联合建模数据和嵌入,利用概率电路的可处理性进行概率推理。
  3. 实验表明APCs在重建质量、嵌入竞争力和缺失数据鲁棒性方面优于现有方法。

📝 摘要(中文)

概率电路(PCs)是一种强大的概率模型,能够实现精确且易于处理的推理,使其非常适合概率推理和推断任务。虽然表征学习在神经网络中占据主导地位,但基于PC的表征学习仍未得到充分探索,之前的方法依赖于外部神经嵌入或基于激活的编码。为了解决这一差距,我们引入了自编码概率电路(APCs),这是一个利用PC的可处理性来显式建模概率嵌入的新框架。APCs通过联合建模数据和嵌入来扩展PCs,通过可处理的概率推理获得嵌入表示。PC编码器允许该框架原生处理任意缺失数据,并通过可微分采样与神经解码器无缝集成在一个混合的、端到端可训练的架构中。我们的实验评估表明,APCs在重建质量方面优于现有的基于PC的自编码方法,生成与神经自编码器具有竞争力的嵌入,并且在处理缺失数据方面表现出卓越的鲁棒性。这些结果突出了APCs作为一种强大而灵活的表征学习方法,它利用了PC的概率推理能力,为鲁棒推理、异常检测和知识蒸馏展示了有希望的方向。

🔬 方法详解

问题定义:论文旨在解决概率电路(PC)在表征学习方面的不足。现有方法要么依赖于外部神经嵌入,要么使用基于激活的编码,无法充分利用PC本身的可处理性和概率推理能力来学习高质量的嵌入表示,尤其是在处理缺失数据时表现不佳。

核心思路:论文的核心思路是利用概率电路的可处理性,构建一个自编码器框架,称为自编码概率电路(APC)。APC通过联合建模数据和嵌入,将嵌入表示视为概率变量,并通过PC进行概率推理,从而显式地学习概率嵌入。这种方法允许APC原生处理缺失数据,并提供更鲁棒的表征。

技术框架:APC由一个PC编码器和一个神经解码器组成。PC编码器接收输入数据,并将其编码为概率嵌入。该编码器利用PC的结构进行概率推理,从而获得嵌入的概率分布。神经解码器接收来自PC编码器的嵌入,并将其解码为重构的数据。整个框架通过端到端的方式进行训练,利用可微分采样将PC编码器和神经解码器连接起来。

关键创新:论文的关键创新在于将概率电路与自编码器框架相结合,提出了一种新的表征学习方法。与传统的基于神经网络的自编码器不同,APC利用PC的可处理性来显式地建模概率嵌入,从而能够进行精确的概率推理,并原生处理缺失数据。此外,APC的混合架构(PC编码器+神经解码器)允许它结合概率模型的优势和神经网络的灵活性。

关键设计:PC编码器使用Sum-Product Networks (SPNs) 作为其基础结构,SPNs 是一种特殊的概率电路,具有良好的可处理性。损失函数包括重建损失和正则化项,以防止过拟合。可微分采样用于将PC编码器的输出(概率分布)传递给神经解码器。神经解码器可以使用任何标准的神经网络结构,例如多层感知机或卷积神经网络。

🖼️ 关键图片

img_0

📊 实验亮点

实验结果表明,APCs在重建质量方面优于现有的基于PC的自编码方法。在嵌入质量方面,APCs生成与神经自编码器具有竞争力的嵌入。更重要的是,APCs在处理缺失数据方面表现出卓越的鲁棒性,显著优于神经自编码器。例如,在某些数据集上,APCs在缺失数据比例较高的情况下,仍然能够保持较高的重建精度。

🎯 应用场景

APCs在多个领域具有潜在的应用价值,包括:鲁棒推理,例如在不完整或噪声数据下进行预测;异常检测,通过识别与训练数据分布不同的样本;知识蒸馏,将复杂模型的知识转移到更小的模型中。此外,APCs还可以应用于图像生成、自然语言处理等任务。

📄 摘要(原文)

Probabilistic circuits (PCs) are powerful probabilistic models that enable exact and tractable inference, making them highly suitable for probabilistic reasoning and inference tasks. While dominant in neural networks, representation learning with PCs remains underexplored, with prior approaches relying on external neural embeddings or activation-based encodings. To address this gap, we introduce autoencoding probabilistic circuits (APCs), a novel framework leveraging the tractability of PCs to model probabilistic embeddings explicitly. APCs extend PCs by jointly modeling data and embeddings, obtaining embedding representations through tractable probabilistic inference. The PC encoder allows the framework to natively handle arbitrary missing data and is seamlessly integrated with a neural decoder in a hybrid, end-to-end trainable architecture enabled by differentiable sampling. Our empirical evaluation demonstrates that APCs outperform existing PC-based autoencoding methods in reconstruction quality, generate embeddings competitive with, and exhibit superior robustness in handling missing data compared to neural autoencoders. These results highlight APCs as a powerful and flexible representation learning method that exploits the probabilistic inference capabilities of PCs, showing promising directions for robust inference, out-of-distribution detection, and knowledge distillation.