Breaking Scale Anchoring: Frequency Representation Learning for Accurate High-Resolution Inference from Low-Resolution Training

📄 arXiv: 2512.05132v1 📥 PDF

作者: Wenshuo Wang, Fan Zhang

分类: cs.CV, cs.AI

发布日期: 2025-11-28


💡 一句话要点

提出频率表示学习,解决低分辨率训练高分辨率推理中的尺度锚定问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱八:物理动画 (Physics-based Animation)

关键词: 超分辨率 时空预测 频率表示学习 尺度锚定 零样本学习

📋 核心要点

  1. 现有方法在低分辨率训练、高分辨率推理时,误差被“锚定”在低分辨率水平,无法随分辨率提升而降低。
  2. 论文提出频率表示学习(FRL),通过对齐不同分辨率下的频率表示,并进行频谱一致性训练,缓解尺度锚定问题。
  3. 实验表明,FRL增强的模型在高分辨率推理时误差显著降低,性能优于基线模型,且计算开销增加不多。

📝 摘要(中文)

本文研究零样本超分辨率时空预测问题,即在低分辨率数据上训练深度学习模型,并将其部署到高分辨率数据上进行推理。现有研究认为,在不同分辨率下保持相似的误差表明多分辨率泛化成功。然而,作为数值求解器的替代方案,深度学习模型应该随着分辨率的提高而降低误差。根本限制在于,低分辨率数据可以表示的物理定律频率上限受到其奈奎斯特频率的约束,这使得模型难以处理高分辨率推理期间包含的未见频率分量。这导致误差被锚定在低分辨率上,被错误地解释为成功的泛化。我们将这种基本现象定义为一个新的问题,区别于现有问题:尺度锚定。因此,我们提出了与架构无关的频率表示学习。它通过分辨率对齐的频率表示和频谱一致性训练来缓解尺度锚定:在具有更高奈奎斯特频率的网格上,FRL增强变体在高频带中的频率响应更稳定。这使得误差能够随着分辨率的提高而降低,并在我们的任务和分辨率范围内显著优于基线,同时仅产生适度的计算开销。

🔬 方法详解

问题定义:论文旨在解决零样本超分辨率时空预测中存在的“尺度锚定”问题。现有方法在低分辨率数据上训练的模型,在高分辨率数据上推理时,误差无法随着分辨率的提高而降低,而是被限制在低分辨率的误差水平。这是因为低分辨率数据无法表示高分辨率数据中的高频信息,导致模型无法有效处理这些未见频率分量。

核心思路:论文的核心思路是通过频率表示学习(Frequency Representation Learning, FRL)来缓解尺度锚定问题。FRL旨在使模型能够更好地学习和表示不同分辨率下的频率信息,从而提高模型在高分辨率数据上的泛化能力。核心思想是让模型能够“看到”高分辨率数据中包含的、低分辨率数据无法表示的频率成分。

技术框架:FRL是一种与架构无关的模块,可以添加到现有的深度学习模型中。其主要包含两个部分:分辨率对齐的频率表示和频谱一致性训练。分辨率对齐的频率表示旨在将不同分辨率下的数据转换到统一的频率空间,使得模型能够更好地学习不同分辨率下的频率对应关系。频谱一致性训练则通过引入额外的损失函数,鼓励模型在不同分辨率下学习到一致的频谱表示。

关键创新:论文的关键创新在于提出了“尺度锚定”这一新的问题,并设计了频率表示学习(FRL)来解决该问题。与现有方法不同,FRL关注的是模型对不同分辨率下频率信息的学习和表示能力,而不是简单地最小化误差。通过对齐频率表示和进行频谱一致性训练,FRL能够有效地缓解尺度锚定问题,提高模型在高分辨率数据上的泛化能力。

关键设计:FRL的关键设计包括:1) 使用傅里叶变换将数据转换到频率空间;2) 设计分辨率对齐模块,将不同分辨率下的频率表示映射到统一的空间;3) 引入频谱一致性损失函数,鼓励模型学习到一致的频谱表示。具体的损失函数形式和网络结构细节在论文中有详细描述,例如可以使用L1或L2损失来衡量频谱之间的差异。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,FRL增强的模型在零样本超分辨率时空预测任务中显著优于基线模型。具体而言,在高分辨率推理时,FRL能够使误差随着分辨率的提高而降低,而基线模型的误差则被锚定在低分辨率水平。在特定任务和分辨率范围内,FRL能够带来显著的性能提升,同时仅增加少量计算开销。

🎯 应用场景

该研究成果可应用于各种需要从低分辨率数据推断高分辨率信息的领域,例如:气候预测、天气预报、视频超分辨率、医学图像重建等。通过提高模型在高分辨率下的预测精度,可以为相关领域的决策提供更准确的依据,具有重要的实际价值和应用前景。

📄 摘要(原文)

Zero-Shot Super-Resolution Spatiotemporal Forecasting requires a deep learning model to be trained on low-resolution data and deployed for inference on high-resolution. Existing studies consider maintaining similar error across different resolutions as indicative of successful multi-resolution generalization. However, deep learning models serving as alternatives to numerical solvers should reduce error as resolution increases. The fundamental limitation is, the upper bound of physical law frequencies that low-resolution data can represent is constrained by its Nyquist frequency, making it difficult for models to process signals containing unseen frequency components during high-resolution inference. This results in errors being anchored at low resolution, incorrectly interpreted as successful generalization. We define this fundamental phenomenon as a new problem distinct from existing issues: Scale Anchoring. Therefore, we propose architecture-agnostic Frequency Representation Learning. It alleviates Scale Anchoring through resolution-aligned frequency representations and spectral consistency training: on grids with higher Nyquist frequencies, the frequency response in high-frequency bands of FRL-enhanced variants is more stable. This allows errors to decrease with resolution and significantly outperform baselines within our task and resolution range, while incurring only modest computational overhead.