Data-to-Energy Stochastic Dynamics
作者: Kirill Tamogashev, Nikolay Malkin
分类: cs.LG
发布日期: 2025-09-30
🔗 代码/项目: GITHUB
💡 一句话要点
提出数据到能量的随机动力学方法,解决无数据样本下的薛定谔桥问题。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 薛定谔桥 随机动力学 最优传输 扩散模型 强化学习 无数据学习 图像转换
📋 核心要点
- 现有薛定谔桥算法依赖于两个分布的样本,限制了其在仅有非归一化密度情况下的应用。
- 该论文提出一种数据到能量的迭代比例拟合方法,无需数据样本即可建模薛定谔桥。
- 实验表明,该方法能有效学习多模态分布间的传输,并可用于无数据图像到图像转换。
📝 摘要(中文)
薛定谔桥问题旨在寻找连接两个边缘分布的随机动力学系统,并最小化一定的运输成本。作为最优传输在随机情况下的推广,该问题因其与扩散模型和流匹配的联系以及在自然科学中的应用而备受关注。然而,现有的算法只能在可以获得两个分布的样本的情况下推断这种动力学。本文提出了一种通用的方法,用于在仅给定非归一化密度而无法访问数据样本的情况下对薛定谔桥进行建模。我们的算法依赖于迭代比例拟合(IPF)过程到无数据情况的推广,其灵感来自离线强化学习在训练扩散采样器方面的最新进展。我们在合成问题上验证了所提出的数据到能量IPF的有效性,发现它可以成功学习多模态分布之间的传输。作为强化学习公式的一个次要结果,我们发现现有的数据到数据薛定谔桥算法可以通过学习动力学的扩散系数得到显著改善。最后,我们将新开发的算法应用于生成模型潜在空间中后验分布的采样问题,从而创建了一种无数据的图像到图像转换方法。
🔬 方法详解
问题定义:论文旨在解决薛定谔桥问题,即寻找连接两个边缘分布并最小化运输成本的随机动力学系统。现有算法的痛点在于,它们需要访问两个分布的样本数据才能进行学习,这在某些情况下是不可行的,例如当分布仅以非归一化的密度函数形式给出时。
核心思路:论文的核心思路是将迭代比例拟合(IPF)过程推广到无数据样本的情况。借鉴离线强化学习的思想,将薛定谔桥问题转化为一个强化学习问题,通过学习一个策略来最小化运输成本,而无需直接访问目标分布的样本。这种“数据到能量”的方法利用了非归一化的密度函数作为奖励信号。
技术框架:整体框架包括以下几个主要步骤:1) 定义一个随机动力学系统,其状态空间为数据空间,时间为连续变量。2) 将薛定谔桥问题转化为一个强化学习问题,其中状态为数据点,动作为控制动力学系统的参数。3) 使用迭代比例拟合(IPF)的变体来训练一个策略,该策略能够控制动力学系统,使得其将一个分布传输到另一个分布。4) 使用训练好的策略来生成样本,并评估其性能。
关键创新:最重要的技术创新点在于将薛定谔桥问题与强化学习联系起来,并提出了数据到能量的IPF方法。与现有方法的本质区别在于,该方法不需要访问目标分布的样本,而是直接利用非归一化的密度函数作为学习信号。此外,论文还发现,通过学习动力学的扩散系数,可以显著改善现有的数据到数据薛定谔桥算法。
关键设计:论文使用了一个固定的时间离散化方案来近似连续时间动力学。策略网络通常采用神经网络结构,其输入为数据点和时间,输出为控制动力学系统的参数。损失函数基于运输成本的估计,例如KL散度或Wasserstein距离。在强化学习的框架下,可以使用各种离线强化学习算法来训练策略网络,例如Q-learning或Actor-Critic方法。具体参数设置和网络结构的选择取决于具体的应用场景和数据集。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法能够成功学习多模态分布之间的传输,并在合成数据集上取得了良好的性能。此外,通过学习扩散系数,现有的数据到数据薛定谔桥算法得到了显著改善。该方法在生成模型潜在空间的后验采样任务中也表现出色,实现了无数据样本的图像到图像转换。
🎯 应用场景
该研究成果可应用于多个领域,如生成模型的后验采样、图像到图像的转换、分子动力学模拟等。在生成模型中,可以利用该方法从潜在空间采样,生成高质量的图像。在图像转换中,可以实现无数据样本的风格迁移。此外,该方法还可以用于解决物理和生物系统中的复杂优化问题。
📄 摘要(原文)
The Schrödinger bridge problem is concerned with finding a stochastic dynamical system bridging two marginal distributions that minimises a certain transportation cost. This problem, which represents a generalisation of optimal transport to the stochastic case, has received attention due to its connections to diffusion models and flow matching, as well as its applications in the natural sciences. However, all existing algorithms allow to infer such dynamics only for cases where samples from both distributions are available. In this paper, we propose the first general method for modelling Schrödinger bridges when one (or both) distributions are given by their unnormalised densities, with no access to data samples. Our algorithm relies on a generalisation of the iterative proportional fitting (IPF) procedure to the data-free case, inspired by recent developments in off-policy reinforcement learning for training of diffusion samplers. We demonstrate the efficacy of the proposed data-to-energy IPF on synthetic problems, finding that it can successfully learn transports between multimodal distributions. As a secondary consequence of our reinforcement learning formulation, which assumes a fixed time discretisation scheme for the dynamics, we find that existing data-to-data Schrödinger bridge algorithms can be substantially improved by learning the diffusion coefficient of the dynamics. Finally, we apply the newly developed algorithm to the problem of sampling posterior distributions in latent spaces of generative models, thus creating a data-free image-to-image translation method. Code: https://github.com/mmacosha/d2e-stochastic-dynamics