A Scale-Adaptive Framework for Joint Spatiotemporal Super-Resolution with Diffusion Models
作者: Max Defez, Filippo Quarenghi, Mathieu Vrac, Stephan Mandt, Tom Beucler
分类: cs.LG, cs.AI
发布日期: 2026-04-23
💡 一句话要点
提出基于扩散模型的尺度自适应时空超分辨率框架,解决气候应用中多尺度问题。
🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation)
关键词: 时空超分辨率 扩散模型 尺度自适应 气候应用 注意力机制
📋 核心要点
- 现有视频超分辨率方法难以同时提升空间和时间分辨率,且缺乏跨尺度的泛化能力,限制了其在气候等领域的应用。
- 该论文提出一种尺度自适应框架,利用扩散模型学习残差,并通过调整超参数实现对不同超分辨率因子的适应。
- 实验结果表明,该框架在法国降水数据上实现了空间和时间分辨率的联合提升,且具有良好的跨尺度泛化能力。
📝 摘要(中文)
深度学习视频超分辨率技术发展迅速,但气候应用通常只对空间或时间进行超分辨率处理。联合时空模型通常针对单一的超分辨率因子对设计,限制了在不同空间分辨率和时间采样率之间的迁移。本文提出了一种尺度自适应框架,通过将时空超分辨率分解为带注意力机制的条件均值确定性预测和一个残差条件扩散模型,从而在不同因子上复用同一架构。该框架还可选地包含质量守恒变换,以保持总量的守恒性。假设较大的超分辨率因子主要增加了不确定性,而非改变条件均值结构,通过在重新训练前调整三个因子相关的超参数来实现尺度自适应:扩散噪声计划幅度beta(因子越大则越大,以增加多样性),时间上下文长度L(设置为在不同采样率下保持相似的注意力范围),以及可选的质量守恒函数f(逐渐减小以限制大因子下的极端值放大)。在法国的再分析降水数据(Comephore)上验证表明,同一架构可以处理空间1到25、时间1到6的超分辨率因子,从而为跨尺度的联合时空超分辨率提供了一个可复用的架构和调整方案。
🔬 方法详解
问题定义:论文旨在解决气候应用中,现有视频超分辨率方法难以同时提升空间和时间分辨率,并且针对特定超分辨率因子设计的模型难以泛化到其他尺度的难题。现有方法通常独立地进行空间或时间超分辨率,或者针对特定比例进行设计,限制了其在实际气候数据分析中的应用灵活性。
核心思路:论文的核心思路是将时空超分辨率问题分解为两部分:一个确定性的条件均值预测和一个残差的条件扩散模型。确定性部分负责预测超分辨率结果的均值,而扩散模型则负责捕捉残差的不确定性。通过这种分解,可以将超分辨率因子带来的不确定性建模到扩散模型中,从而实现尺度自适应。
技术框架:整体框架包含两个主要模块:一个基于注意力机制的确定性预测模块和一个条件扩散模型。确定性预测模块接收低分辨率时空数据,并预测高分辨率数据的条件均值。条件扩散模型接收低分辨率数据和确定性预测结果,并生成高分辨率数据的残差。框架还可选地包含一个质量守恒变换,用于保证输入和输出数据的总量守恒。
关键创新:最重要的技术创新点在于尺度自适应的设计。通过调整三个与超分辨率因子相关的超参数(扩散噪声计划幅度beta、时间上下文长度L和质量守恒函数f),可以在不重新训练整个模型的情况下,适应不同的超分辨率因子。这种设计使得同一个模型可以处理不同尺度的时空超分辨率任务,大大提高了模型的泛化能力和实用性。
关键设计:关键设计包括:1) 使用注意力机制的确定性预测模块,可以有效地捕捉时空依赖关系;2) 使用条件扩散模型来建模残差的不确定性,可以生成更加真实和多样化的超分辨率结果;3) 通过调整超参数beta来控制扩散模型的噪声水平,从而适应不同的超分辨率因子;4) 通过调整时间上下文长度L来控制注意力机制的范围,从而适应不同的时间采样率;5) 可选的质量守恒变换,可以保证输入和输出数据的总量守恒,这在气候应用中非常重要。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该框架在Comephore数据集上实现了空间1到25倍、时间1到6倍的超分辨率,并且在不同尺度上都取得了良好的性能。通过调整超参数,该框架可以有效地适应不同的超分辨率因子,无需针对每个尺度重新训练模型。该方法为联合时空超分辨率提供了一个可复用的架构和调整方案。
🎯 应用场景
该研究成果可广泛应用于气候科学、气象预报等领域。例如,可以用于提高降水、温度等气候变量的时空分辨率,从而更准确地分析气候变化趋势和极端天气事件。此外,该方法还可以应用于其他需要进行时空超分辨率处理的领域,如视频监控、医学影像等。
📄 摘要(原文)
Deep-learning video super-resolution has progressed rapidly, but climate applications typically super-resolve (increase resolution) either space or time, and joint spatiotemporal models are often designed for a single pair of super-resolution (SR) factors (upscaling spatial and temporal ratio between the low-resolution sequence and the high-resolution sequence), limiting transfer across spatial resolutions and temporal cadences (frame rates). We present a scale-adaptive framework that reuses the same architecture across factors by decomposing spatiotemporal SR into a deterministic prediction of the conditional mean, with attention, and a residual conditional diffusion model, with an optional mass-conservation (same precipitation amount in inputs and outputs) transform to preserve aggregated totals. Assuming that larger SR factors primarily increase underdetermination (hence required context and residual uncertainty) rather than changing the conditional-mean structure, scale adaptivity is achieved by retuning three factor-dependent hyperparameters before retraining: the diffusion noise schedule amplitude beta (larger for larger factors to increase diversity), the temporal context length L (set to maintain comparable attention horizons across cadences) and optionally a third, the mass-conservation function f (tapered to limit the amplification of extremes for large factors). Demonstrated on reanalysis precipitation over France (Comephore), the same architecture spans super-resolution factors from 1 to 25 in space and 1 to 6 in time, yielding a reusable architecture and tuning recipe for joint spatiotemporal super-resolution across scales.