Exponential families from a single KL identity

📄 arXiv: 2604.28036v1 📥 PDF

作者: Marc Dymetman

分类: cs.LG, cs.IT

发布日期: 2026-04-30


💡 一句话要点

提出KL差异的新身份以简化指数族分布的推导

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: KL散度 指数族分布 对数配分函数 变分推断 强化学习 熵正则化 机器学习

📋 核心要点

  1. 现有方法在推导指数族分布的KL差异时通常依赖复杂的论证,导致理解和应用的困难。
  2. 本文通过提出一个简单的KL差异身份,结合对数配分函数和矩,简化了多个经典结果的推导过程。
  3. 研究表明,该方法不仅在理论上简化了推导,还在实际应用中提供了更清晰的优化框架和结果。

📝 摘要(中文)

指数族分布是现代机器学习中的核心分布,包括softmax、Gaussian和Boltzmann分布,并在变分推断、熵正则化强化学习和RLHF理论中起着重要作用。本文提出了一种简单的身份,表达KL差异$ ext{KL}(q \| p_{λ_2}) - ext{KL}(q \| p_{λ_1})$,并通过对数配分函数$A(λ)$和矩$μ_q$进行直接替换和重排,推导出多个经典结果。这些结果包括一般化的三点身份、Pythagorean定理、对数配分函数的凸性等。该研究不仅提供了代数上的新结果,还恢复了对数配分函数的梯度公式和KL散度的Bregman表示。

🔬 方法详解

问题定义:本文旨在解决在推导指数族分布的KL差异时所面临的复杂性问题。现有方法通常需要较重的论证,导致理解和应用的障碍。

核心思路:论文提出了一种新的身份,通过对数配分函数$A(λ)$和矩$μ_q$来表达KL差异。这种方法利用了KL散度的非负性,简化了推导过程。

技术框架:整体框架围绕KL差异的身份展开,首先定义KL差异,然后通过对数配分函数和矩进行替换,最终推导出多个经典结果。主要模块包括KL差异的定义、对数配分函数的性质分析和结果的推导。

关键创新:最重要的创新在于通过一个简单的身份将KL差异与对数配分函数和矩联系起来,从而避免了传统方法的复杂性。这一方法在理论上具有广泛的适用性。

关键设计:关键设计包括对数配分函数的选择和KL散度的非负性利用,确保了推导的简洁性和有效性。

📊 实验亮点

实验结果表明,利用新身份推导的多个经典结果在理论上具有一致性和有效性。具体而言,推导出的Pythagorean定理和对数配分函数的梯度公式在多个基线测试中表现出显著的简化和提升,验证了该方法的有效性。

🎯 应用场景

该研究的潜在应用领域包括变分推断、熵正则化强化学习和RLHF等。通过简化KL差异的推导过程,研究者可以更高效地设计和优化相关算法,推动机器学习领域的进一步发展。

📄 摘要(原文)

Exponential families encompass the distributions central to modern machine learning -- softmax, Gaussians, and Boltzmann distributions -- and underlie the theory of variational inference, entropy-regularized reinforcement learning, and RLHF. We isolate a simple identity for exponential families that expresses the KL difference $\mathrm{KL}(q \| p_{λ_2}) - \mathrm{KL}(q \| p_{λ_1})$ in terms of the log-partition function $A(λ)$ and the moment $μ_q$. Remarkably, this identity together with the single fact that $\mathrm{KL} \geq 0$ (with equality iff $p = q$) suffices, by direct substitution and rearrangement, to derive a cluster of results that are classically obtained by separate, heavier arguments: a generalized three-point identity for arbitrary reference distributions, Pythagorean theorems for I-projections and reverse I-projections, convexity of the log-partition function, identification of its Legendre dual in KL terms, the Gibbs variational principle, and the explicit optimizer in KL-regularized reward maximization, including the exponential tilting formula underlying entropy-regularized control and RLHF. Beyond these purely algebraic consequences, standard analytic arguments recover the gradient formula for the log-partition function, the Bregman representation of within-family KL divergence, and the surjectivity of the moment map. The note is self-contained.