The Expressivity Boundary of Probabilistic Circuits: A Comparison with Large Language Models

📄 arXiv: 2605.12940v1 📥 PDF

作者: Zhiyu Zhao, Xuejie Liu, Muhan Zhang, Anji Liu

分类: cs.LG, cs.AI

发布日期: 2026-05-13


💡 一句话要点

对比概率电路与大语言模型,揭示概率电路在语言建模中的表达能力瓶颈

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 概率电路 大语言模型 自回归建模 表达能力 logit空间

📋 核心要点

  1. 概率电路在自回归语言建模中表现不如Transformer,核心问题在于其表达能力存在瓶颈。
  2. 论文通过统一的自回归框架,对比分析了概率电路与大语言模型在表达能力上的差异。
  3. 研究发现概率电路在输出表示和上下文编码方面存在瓶颈,并提出了相应的改进方案。

📝 摘要(中文)

概率电路(PCs)是一种支持精确高效概率推断的深度生成模型。然而,在自回归语言建模中,PCs仍然落后于基于Transformer的大语言模型(LLMs),这表明存在重要的表达能力差距。本文在统一的自回归公式下比较了PCs和LLMs。首先,PCs将预测参数化为概率空间中的凸组合,这难以表示语言中典型的尖锐分布;采用logit空间参数化可以显著缩小这一差距。其次,证明了结构可分解PCs可以在vtree对齐的分区上匹配Transformer的分离秩,但理论和实验表明,这种能力仅限于与固定路由结构对齐的分区,导致数据表现出异构依赖拓扑时性能严重下降。进一步证明,可分解PCs比结构可分解PCs具有更强的表达能力,但有效优化它们仍然是一个开放的挑战。

🔬 方法详解

问题定义:论文旨在解决概率电路(PCs)在自回归语言建模任务中,表达能力不足的问题。现有方法,即基于概率空间凸组合的参数化方式,难以捕捉语言数据中常见的尖锐分布,并且PCs的上下文编码能力受限于固定的路由结构,无法有效处理异构依赖拓扑的数据。

核心思路:论文的核心思路是通过分析PCs与Transformer-based LLMs在自回归建模中的差异,找出PCs的表达能力瓶颈,并提出相应的改进方案。具体来说,论文从输出表示和上下文编码两个方面入手,分别提出了logit空间参数化和更灵活的分解结构。

技术框架:论文的技术框架主要包括以下几个部分:1) 将PCs和LLMs置于统一的自回归公式下进行比较;2) 分析PCs在概率空间参数化输出的局限性;3) 证明结构可分解PCs在特定条件下的表达能力上限;4) 理论和实验验证PCs在处理异构依赖拓扑数据时的性能下降;5) 证明可分解PCs具有更强的表达能力。

关键创新:论文的关键创新在于:1) 首次系统性地对比了PCs和LLMs在自回归语言建模中的表达能力;2) 指出了PCs在输出表示和上下文编码方面的瓶颈;3) 提出了logit空间参数化方法,有效提升了PCs的输出表达能力;4) 证明了结构可分解PCs的表达能力受限于固定的路由结构;5) 证明了可分解PCs具有更强的表达能力。

关键设计:论文的关键设计包括:1) 采用logit空间参数化,将概率预测从概率空间转换到logit空间,从而能够更好地表示尖锐分布;2) 分析了结构可分解PCs在vtree对齐分区上的分离秩,并将其与Transformer进行比较;3) 通过实验验证了PCs在处理异构依赖拓扑数据时的性能下降,并分析了原因;4) 理论证明了可分解PCs比结构可分解PCs具有更强的表达能力,但同时也指出有效优化可分解PCs仍然是一个挑战。

🖼️ 关键图片

fig_0

📊 实验亮点

论文通过实验验证了logit空间参数化能够显著提升概率电路的输出表达能力,缩小了与大型语言模型的差距。同时,实验结果表明,结构可分解概率电路在处理异构依赖拓扑数据时性能会显著下降,验证了其表达能力的局限性。

🎯 应用场景

该研究成果可应用于提升概率电路在自然语言处理任务中的性能,例如文本生成、语言理解等。通过解决概率电路的表达能力瓶颈,可以使其在资源受限的场景下,替代或补充大型语言模型,实现更高效的语言建模。

📄 摘要(原文)

Probabilistic Circuits (PCs) are deep generative models that support exact and efficient probabilistic inference. Yet in autoregressive language modeling, PCs still lag behind Transformer-based large language models (LLMs), suggesting an important expressivity gap. In this work, we compare PCs and LLMs under a unified autoregressive formulation. First, an output bottleneck: PCs parameterize predictions as convex combinations in probability space, which struggles to represent the sharp distributions typical of language; adopting a logit-space parameterization substantially narrows this gap. Second, a context-encoding bottleneck: we prove that structured-decomposable PCs can match Transformer separation rank on vtree-aligned partitions, but show, both theoretically and empirically, that this capacity is limited to partitions aligned with the fixed routing structure, leading to severe degradation when the data exhibits heterogeneous dependency topologies. We further prove that decomposable PCs are strictly more expressive than structured-decomposable ones, though effectively optimizing them remains an open challenge.