How Out-of-Equilibrium Phase Transitions can Seed Pattern Formation in Trained Diffusion Models
作者: Luca Ambrogioni
分类: cs.LG
发布日期: 2026-03-20
💡 一句话要点
将扩散模型生成过程解释为非平衡相变,揭示模式形成机制并提升生成控制。
🎯 匹配领域: 支柱四:生成式动作 (Generative Motion) 支柱八:物理动画 (Physics-based Animation)
关键词: 扩散模型 非平衡相变 模式形成 临界现象 生成控制
📋 核心要点
- 扩散模型生成过程缺乏理论解释,难以理解其模式形成机制,现有方法难以有效控制生成结果。
- 将扩散模型生成过程视为非平衡相变,认为其通过临界状态放大空间波动,形成大规模结构。
- 实验结果验证了理论,揭示了临界状态的特征,并通过在临界时间施加扰动显著提高了生成控制。
📝 摘要(中文)
本文提出了一个理论框架,将训练后的扩散模型中的生成过程解释为非平衡相变的一个实例。我们认为,反向扩散不是从噪声平滑地演化到数据,而是通过一个临界状态,其中小的空间波动被放大,并为大规模结构的出现播下种子。我们的核心见解是,架构约束(如局部性、稀疏性和平移等变性)将记忆驱动的不稳定性转化为集体空间模式,从而能够形成超出训练数据的连贯模式。利用可解析的patch score模型,我们展示了经典的对称性破缺分岔如何推广到由软化傅里叶模式和增长的相关长度描述的空间扩展临界现象。我们进一步将这些动力学与Ginzburg-Landau类型的有效场理论以及非平衡物理学中的模式形成机制联系起来。在训练后的卷积扩散模型上的经验结果证实了该理论,揭示了临界性的特征,包括模式软化和空间相关性的快速增长。最后,我们证明了这种临界状态具有实际意义:在估计的临界时间应用有针对性的扰动,例如无分类器引导脉冲,可以显著提高生成控制。总之,这些发现将非平衡临界现象定位为理解和潜在改进现代扩散模型行为的统一原则。
🔬 方法详解
问题定义:论文旨在解决扩散模型生成过程缺乏理论解释的问题,现有方法难以理解其内部的模式形成机制,并且在生成控制方面存在不足。扩散模型通常被视为一个从噪声到数据的平滑演化过程,但这种观点忽略了其中可能存在的复杂动力学行为。
核心思路:论文的核心思路是将扩散模型的生成过程类比为非平衡相变。作者认为,反向扩散过程并非平滑演化,而是经历一个临界状态,在该状态下,微小的空间波动会被放大,从而形成大规模的结构。这种临界状态类似于物理学中的相变点,系统在该点对微小扰动非常敏感。
技术框架:论文的技术框架主要包括以下几个部分:首先,作者提出了一个理论框架,将扩散模型中的生成过程解释为非平衡相变。其次,作者利用可解析的patch score模型,分析了对称性破缺分岔如何推广到空间扩展的临界现象。然后,作者将这些动力学与Ginzburg-Landau类型的有效场理论以及非平衡物理学中的模式形成机制联系起来。最后,作者通过在训练后的卷积扩散模型上进行实验,验证了该理论。
关键创新:论文的关键创新在于将非平衡相变的概念引入到扩散模型的分析中。这种视角提供了一种新的理解扩散模型生成过程的方式,并揭示了其中存在的临界现象。此外,论文还提出了利用临界状态来提高生成控制的方法,例如在估计的临界时间应用有针对性的扰动。
关键设计:论文的关键设计包括:1) 使用patch score模型来分析空间波动的放大过程;2) 将扩散模型的动力学与Ginzburg-Landau类型的有效场理论联系起来,从而利用物理学中的工具来分析扩散模型;3) 提出在临界时间应用有针对性的扰动(例如无分类器引导脉冲)来提高生成控制。作者还特别关注了架构约束(如局部性、稀疏性和平移等变性)对模式形成的影响。
🖼️ 关键图片
📊 实验亮点
论文通过实验验证了理论框架的有效性,在训练后的卷积扩散模型上观察到了临界性的特征,包括模式软化和空间相关性的快速增长。更重要的是,论文证明了在估计的临界时间应用有针对性的扰动(例如无分类器引导脉冲)可以显著提高生成控制,为扩散模型的实际应用提供了新的方法。
🎯 应用场景
该研究成果可应用于图像生成、音频合成、视频生成等领域,通过理解扩散模型的内部机制,可以设计更有效的模型架构和训练方法,提高生成质量和控制能力。此外,该研究还可能促进非平衡物理学和机器学习之间的交叉研究,为解决其他领域的复杂问题提供新的思路。
📄 摘要(原文)
In this work, we propose a theoretical framework that interprets the generation process in trained diffusion models as an instance of out-of-equilibrium phase transitions. We argue that, rather than evolving smoothly from noise to data, reverse diffusion passes through a critical regime in which small spatial fluctuations are amplified and seed the emergence of large-scale structure. Our central insight is that architectural constraints, such as locality, sparsity, and translation equivariance, transform memorization-driven instabilities into collective spatial modes, enabling the formation of coherent patterns beyond the training data. Using analytically tractable patch score models, we show how classical symmetry-breaking bifurcations generalize into spatially extended critical phenomena described by softening Fourier modes and growing correlation lengths. We further connect these dynamics to effective field theories of the Ginzburg-Landau type and to mechanisms of pattern formation in non-equilibrium physics. Empirical results on trained convolutional diffusion models corroborate the theory, revealing signatures of criticality including mode softening and rapid growth of spatial correlations. Finally, we demonstrate that this critical regime has practical relevance: targeted perturbations, such as classifier-free guidance pulses applied at the estimated critical time, significantly improve generation control. Together, these findings position non-equilibrium critical phenomena as a unifying principle for understanding, and potentially improving, the behavior of modern diffusion models.