ABC: Any-Subset Autoregression via Non-Markovian Diffusion Bridges in Continuous Time and Space

📄 arXiv: 2604.27443v1 📥 PDF

作者: Gabe Guo, Thanawat Sornwanee, Lutong Hao, Elon Litman, Stefano Ermon, Jose Blanchet

分类: cs.LG, cs.AI

发布日期: 2026-04-30


💡 一句话要点

ABC:基于非马尔可夫扩散桥的任意子集自回归模型,用于连续时空过程生成。

🎯 匹配领域: 支柱四:生成式动作 (Generative Motion)

关键词: 连续时间模型 扩散模型 随机微分方程 条件生成 视频生成 天气预报 非马尔可夫过程

📋 核心要点

  1. 现有扩散模型在连续时空过程生成中,未能有效捕捉时间相邻状态的结构相似性,且对任意子集状态的条件约束能力不足。
  2. ABC模型通过构建连续时间SDE,利用先前状态作为起点,并根据物理时间流逝调整噪声注入,从而鼓励更真实的动力学。
  3. 实验结果表明,ABC在视频生成和天气预报等任务上,相比现有方法取得了显著的性能提升。

📝 摘要(中文)

本文提出了一种名为ABC(Any-Subset Autoregressive Models)的任意子集自回归模型,用于解决连续时间、连续空间随机过程(如视频、天气预报)在部分观测条件下的生成问题。现有方法(如扩散模型)存在以下局限:(1)噪声到数据的演化未能捕捉到物理时间上相近状态的结构相似性,且在低步长情况下积分不稳定;(2)注入的随机噪声对物理过程的时间流逝不敏感,导致动力学不正确;(3)忽略了对状态的任意子集(如不规则采样时间步、未来观测)的条件约束。ABC通过连续SDE对过程进行建模,其时间变量和中间状态跟踪真实时间和过程状态,具有显著优势:(1)生成未来状态的起点是已接近的先前状态,而非无信息的噪声;(2)随机噪声注入随物理时间流逝而缩放,鼓励物理上合理的动力学,使时间相邻状态相似。(3)通过路径空间上的测度变换推导SDE动力学,实现对状态历史和/或未来的任意子集的路径依赖条件约束。为了学习这些动力学,本文推导了去噪得分匹配的路径和时间依赖扩展。实验表明,ABC在视频生成和天气预报等多个领域优于现有方法。

🔬 方法详解

问题定义:论文旨在解决在给定部分观测的情况下,生成连续时间、连续空间的随机过程的问题,例如视频生成和天气预测。现有扩散模型的痛点在于,它们从噪声开始生成,忽略了时间上相邻状态之间的相关性,并且难以处理任意子集的条件信息。

核心思路:论文的核心思路是使用非马尔可夫扩散桥,通过连续时间SDE建模过程,并利用路径空间上的测度变换来实现对任意子集状态的条件约束。关键在于将生成过程的起点设置为接近的先前状态,而不是随机噪声,并根据物理时间流逝来调整噪声注入的强度。

技术框架:ABC模型的整体框架包括以下几个关键部分:1) 使用连续时间SDE对连续时空过程进行建模;2) 通过路径空间上的测度变换推导SDE的动力学,从而实现对任意子集状态的条件约束;3) 提出了一种路径和时间依赖的去噪得分匹配方法来学习SDE的参数。

关键创新:最重要的创新点在于使用非马尔可夫扩散桥来建模连续时空过程,并利用路径空间上的测度变换来实现对任意子集状态的条件约束。与现有方法相比,ABC模型能够更好地捕捉时间相邻状态之间的相关性,并且能够灵活地处理各种类型的条件信息。

关键设计:论文中一个关键的设计是路径和时间依赖的去噪得分匹配损失函数。该损失函数鼓励模型学习到能够生成符合物理规律的动态过程,并且能够根据给定的条件信息进行准确的预测。具体的网络结构和参数设置在论文中有详细描述,但总体思路是使用一个神经网络来估计SDE的得分函数,并使用该得分函数来指导生成过程。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,ABC模型在视频生成和天气预报等任务上,相比现有方法取得了显著的性能提升。例如,在视频生成任务中,ABC模型生成的视频在视觉质量和时间一致性方面均优于现有方法。在天气预报任务中,ABC模型能够更准确地预测未来的天气状况,尤其是在极端天气事件的预测方面。

🎯 应用场景

ABC模型在多个领域具有广泛的应用前景,包括视频生成、天气预报、金融时间序列建模、机器人轨迹规划等。该模型能够生成更真实、更符合物理规律的连续时空过程,从而提高相关任务的性能和可靠性。未来,该模型有望应用于更复杂的场景,例如自动驾驶、智能制造等。

📄 摘要(原文)

Generating continuous-time, continuous-space stochastic processes (e.g., videos, weather forecasts) conditioned on partial observations (e.g., first and last frames) is a fundamental challenge. Existing approaches, (e.g., diffusion models), suffer from key limitations: (1) noise-to-data evolution fails to capture structural similarity between states close in physical time and has unstable integration in low-step regimes; (2) random noise injected is insensitive to the physical process's time elapsed, resulting in incorrect dynamics; (3) they overlook conditioning on arbitrary subsets of states (e.g., irregularly sampled timesteps, future observations). We propose ABC: Any-Subset Autoregressive Models via Non-Markovian Diffusion Bridges in Continuous Time and Space. Crucially, we model the process with one continual SDE whose time variable and intermediate states track the real time and process states. This has provable advantages: (1) the starting point for generating future states is the already-close previous state, rather than uninformative noise; (2) random noise injection scales with physical time elapsed, encouraging physically plausible dynamics with similar time-adjacent states. We derive SDE dynamics via changes-of-measure on path space, yielding another advantage: (3) path-dependent conditioning on arbitrary subsets of the state history and/or future. To learn these dynamics, we derive a path- and time-dependent extension of denoising score matching. Our experiments show ABC's superiority to competing methods on multiple domains, including video generation and weather forecasting.