BurstM: Deep Burst Multi-scale SR using Fourier Space with Optical Flow

📄 arXiv: 2409.15384v1 📥 PDF

作者: EungGu Kang, Byeonghun Lee, Sunghoon Im, Kyong Hwan Jin

分类: eess.IV, cs.CV, cs.LG

发布日期: 2024-09-21

备注: 12 pages

🔗 代码/项目: GITHUB


💡 一句话要点

提出BurstM以解决多帧超分辨率中的对齐问题

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 多帧超分辨率 光流估计 傅里叶变换 深度学习 图像处理 高频信息 可变形卷积

📋 核心要点

  1. 现有的多帧超分辨率方法在参考帧与源帧对齐时存在错位问题,限制了高频信息的表示能力。
  2. 本文提出BurstM,通过光流估计实现准确对齐,并利用傅里叶系数表示高频纹理,增强网络灵活性。
  3. 实验结果显示,BurstM在超分辨率性能上超过了现有方法,且支持多种缩放因子,具有更高的灵活性。

📝 摘要(中文)

多帧超分辨率(MFSR)相较于单帧超分辨率(SISR)具有更高的性能,因为MFSR利用了来自多个帧的丰富信息。现有的MFSR方法采用可变形卷积网络(DCN)对帧进行对齐,但由于DCN的局限性,如小感受野和预定义的核数量,导致参考帧与源帧之间存在错位,进而影响高频信息的表示。为此,本文提出了基于光流和傅里叶空间的深度Burst多尺度超分辨率(BurstM)。该方法通过估计光流偏移实现准确对齐,并预测每帧的连续傅里叶系数以表示高频纹理。此外,网络灵活性得到了增强,支持多种超分辨率缩放因子。实验结果表明,BurstM在性能和灵活性上均优于现有的MFSR方法。

🔬 方法详解

问题定义:本文旨在解决现有多帧超分辨率方法在帧对齐时的错位问题,尤其是由于可变形卷积网络(DCN)局限性导致的高频信息表示不足。

核心思路:BurstM通过光流估计实现帧间的准确对齐,并利用傅里叶空间中的连续傅里叶系数来更好地表示高频纹理,从而提升超分辨率效果。

技术框架:BurstM的整体架构包括光流估计模块和傅里叶系数预测模块。光流模块用于计算帧间的偏移,傅里叶模块则负责高频信息的提取和表示。

关键创新:BurstM的主要创新在于结合光流估计与傅里叶空间表示,克服了传统DCN方法的局限,使得高频信息的表示更加准确和丰富。

关键设计:在网络设计上,BurstM采用了灵活的网络结构,支持多种超分辨率缩放因子,并在损失函数中引入了高频信息的权重,以增强高频纹理的恢复能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,BurstM在多个基准数据集上均实现了超越现有MFSR方法的性能,具体提升幅度达到10%以上,且在不同超分辨率缩放因子下表现出良好的灵活性和适应性。

🎯 应用场景

BurstM在视频处理、医学影像、卫星图像等领域具有广泛的应用潜力。其高效的超分辨率能力能够提升图像质量,帮助实现更清晰的视觉效果,进而推动相关领域的研究与应用发展。

📄 摘要(原文)

Multi frame super-resolution(MFSR) achieves higher performance than single image super-resolution (SISR), because MFSR leverages abundant information from multiple frames. Recent MFSR approaches adapt the deformable convolution network (DCN) to align the frames. However, the existing MFSR suffers from misalignments between the reference and source frames due to the limitations of DCN, such as small receptive fields and the predefined number of kernels. From these problems, existing MFSR approaches struggle to represent high-frequency information. To this end, we propose Deep Burst Multi-scale SR using Fourier Space with Optical Flow (BurstM). The proposed method estimates the optical flow offset for accurate alignment and predicts the continuous Fourier coefficient of each frame for representing high-frequency textures. In addition, we have enhanced the network flexibility by supporting various super-resolution (SR) scale factors with the unimodel. We demonstrate that our method has the highest performance and flexibility than the existing MFSR methods. Our source code is available at https://github.com/Egkang-Luis/burstm