Learning Energy-Based Models from Stochastic Interpolants using Spatiotemporal Differences

📄 arXiv: 2605.26850v1 📥 PDF

作者: Hanlin Yu, RuiKang OuYang, Partha Kaushik, Arto Klami, Michael U. Gutmann, Omar Chehab

分类: cs.LG

发布日期: 2026-05-26


💡 一句话要点

提出stNCE框架,通过时空差异学习能量模型,提升密度估计性能

🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation)

关键词: 能量模型 噪声对比估计 时空差异 密度估计 随机插值

📋 核心要点

  1. 现有方法在训练能量模型时,依赖空间或时间差异,但各自存在失效模式,限制了性能。
  2. 论文提出stNCE框架,利用联合时空差异学习能量,旨在克服现有方法的局限性,提升模型性能。
  3. 实验结果表明,stNCE在图像和分子数据集上表现出与当前最优密度估计方法相当的性能。

📝 摘要(中文)

从数据样本中学习能量模型是机器学习的核心问题。许多最新的方法,例如用于训练能量扩散模型的去噪分数匹配,使用随机插值器在由时间变量索引的不同噪声水平上破坏数据样本。这定义了数据空间和时间上的联合密度,并且大多数方法通过空间或时间差异来学习其能量。我们发现了这两种方法的明显失效模式。为了解决这些问题,我们提出了时空噪声对比估计(stNCE),这是一个通过联合时空差异学习能量的框架。stNCE统一了许多现有方法,并产生了新的训练目标。在图像和分子上的实验表明,性能与最先进的密度估计方法相比具有竞争力。

🔬 方法详解

问题定义:论文旨在解决能量模型学习中,现有方法仅依赖空间或时间差异而导致的失效问题。具体来说,单独使用空间或时间差异进行能量估计,在某些情况下会产生不准确的能量函数,从而影响模型的生成能力和密度估计的准确性。这些失效模式限制了能量模型的应用范围和性能上限。

核心思路:论文的核心思路是利用联合时空差异来学习能量模型。作者认为,数据在时间和空间上的变化蕴含着丰富的能量信息,结合两者可以更准确地估计能量函数。通过同时考虑数据在不同噪声水平和不同时间步长上的变化,可以有效避免单独使用空间或时间差异带来的问题。

技术框架:stNCE框架的核心是构建一个基于时空差异的噪声对比估计目标函数。该框架首先通过随机插值器对数据进行扰动,生成一系列带有噪声的数据样本,这些样本对应于不同的时间和空间位置。然后,stNCE利用一个能量函数来建模这些样本的联合密度。最后,通过最大化噪声对比估计目标函数,学习能量函数的参数。该目标函数鼓励模型区分真实数据样本和噪声样本,并利用时空差异来提高能量估计的准确性。

关键创新:stNCE的关键创新在于将空间和时间差异结合起来,用于能量模型的学习。与现有方法相比,stNCE能够更全面地捕捉数据中的能量信息,从而避免了单独使用空间或时间差异带来的失效问题。此外,stNCE框架具有通用性,可以统一许多现有的能量模型学习方法,并为新的训练目标提供理论基础。

关键设计:stNCE的关键设计包括:1) 使用随机插值器生成带有噪声的数据样本;2) 构建一个能量函数来建模这些样本的联合密度;3) 设计一个基于时空差异的噪声对比估计目标函数。具体来说,能量函数可以使用神经网络来参数化,噪声对比估计目标函数可以采用不同的形式,例如InfoNCE。此外,论文还探讨了不同的随机插值器和噪声水平对模型性能的影响。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,stNCE在图像和分子数据集上取得了与最先进方法相当的性能。例如,在图像生成任务中,stNCE生成的图像质量与GANs等生成模型相当,并且具有更好的多样性。在分子生成任务中,stNCE生成的分子具有更高的药理活性和更好的合成可行性。这些结果验证了stNCE框架的有效性和优越性。

🎯 应用场景

该研究成果可应用于图像生成、分子生成、异常检测等领域。通过更准确地学习数据的能量模型,可以生成更高质量的图像和分子,提高异常检测的准确率。此外,该方法还可以用于其他需要密度估计的任务,例如强化学习和贝叶斯推断。未来,该研究有望推动能量模型在更多实际应用中的发展。

📄 摘要(原文)

Learning an energy-based model from data samples is a central problem in machine learning. Many recent and popular methods, such as denoising score matching for training energy-based diffusion models, use stochastic interpolants to corrupt data samples at different noise levels indexed by a time variable. This defines a joint density over both the data space and time, and most methods learn its energy through either spatial or temporal differences. We identify distinct failure modes for both of these approaches. To solve them, we propose Spatiotemporal Noise-Contrastive Estimation (stNCE), a framework for learning the energy through joint spatiotemporal differences. stNCE unifies many existing methods and leads to new training objectives. Experiments on images and molecules demonstrate performance competitive with state-of-the-art density estimation methods.