Frames2Residual: Spatiotemporal Decoupling for Self-Supervised Video Denoising
作者: Mingjie Ji, Zhan Shi, Kailai Zhou, Zixuan Fu, Xun Cao
分类: cs.CV
发布日期: 2026-03-11
💡 一句话要点
提出Frames2Residual框架,解耦时空信息,提升自监督视频降噪性能。
🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation)
关键词: 自监督学习 视频降噪 时空解耦 盲点网络 纹理恢复
📋 核心要点
- 现有自监督视频降噪方法难以兼顾帧间时间一致性和帧内空间细节,导致纹理损失。
- Frames2Residual (F2R) 采用时空解耦策略,分为盲时间一致性建模和非盲空间纹理恢复两个阶段。
- 实验表明,F2R 在 sRGB 和 raw 视频数据集上均优于现有自监督方法,有效提升了降噪性能。
📝 摘要(中文)
自监督视频降噪方法通常将基于图像的框架扩展到时间维度,但难以将帧间时间一致性与帧内空间特异性相结合。现有的视频盲点网络(BSN)通过掩盖中心像素来要求噪声独立性,这种约束阻止了空间证据用于纹理恢复,从而切断了时空相关性并导致纹理丢失。为了解决这个问题,我们提出了Frames2Residual (F2R),一个时空解耦框架,它将自监督训练显式地分为两个不同的阶段:盲时间一致性建模和非盲空间纹理恢复。在第一阶段,一个盲时间估计器使用逐帧盲策略学习帧间一致性,产生一个时间上一致的锚点。在第二阶段,一个非盲空间细化器利用这个锚点来安全地重新引入中心帧,并在保持时间稳定性的同时恢复帧内高频空间残差。大量的实验表明,我们的解耦策略使F2R在sRGB和原始视频基准测试中都优于现有的自监督方法。
🔬 方法详解
问题定义:现有自监督视频降噪方法,特别是基于盲点网络(BSN)的方法,为了保证噪声独立性,会mask掉中心像素,这阻碍了网络利用空间信息进行纹理恢复,导致时空相关性被割裂,最终造成降噪后图像的纹理细节丢失。
核心思路:Frames2Residual (F2R) 的核心思路是将自监督视频降噪过程解耦为两个阶段:首先,利用盲估计器学习时间一致性,生成一个时间上稳定的“锚点”;然后,利用非盲细化器,基于该锚点,重新引入中心帧,恢复空间纹理细节。这种解耦允许网络分别关注时间和空间信息,避免了两者之间的干扰。
技术框架:F2R 框架包含两个主要阶段:1) 盲时间估计器 (Blind Temporal Estimator):该模块采用 frame-wise blind 策略,即对每一帧进行盲估计,学习帧间的时间一致性,生成一个时间上稳定的锚点。2) 非盲空间细化器 (Non-blind Spatial Refiner):该模块以盲时间估计器生成的锚点为基础,重新引入中心帧,利用空间信息恢复高频纹理细节,同时保持时间稳定性。
关键创新:F2R 的关键创新在于其时空解耦策略。与以往尝试同时学习时空信息的自监督方法不同,F2R 将时间一致性建模和空间纹理恢复分离,使得网络能够更有效地学习和利用这两种信息。这种解耦避免了盲点网络中mask操作带来的信息损失,并允许网络在恢复空间细节时,以时间一致性作为约束,从而提高降噪效果。
关键设计:在盲时间估计器阶段,采用 frame-wise blind 策略,具体实现方式未知。在非盲空间细化器阶段,如何将时间一致性锚点与中心帧融合,以及如何设计损失函数来平衡空间细节恢复和时间稳定性,是关键的设计细节。具体的网络结构和参数设置未知。
🖼️ 关键图片
📊 实验亮点
Frames2Residual (F2R) 在 sRGB 和 raw 视频数据集上均取得了优于现有自监督方法的结果。具体性能数据未知,但摘要强调 F2R 在保持时间稳定性的同时,能够更好地恢复空间纹理细节,克服了现有方法的局限性,表明其在自监督视频降噪领域具有显著的优势。
🎯 应用场景
该研究成果可应用于各种视频降噪场景,例如监控视频修复、老旧电影修复、医学影像增强等。通过提升视频质量,改善视觉体验,为后续的视频分析、目标检测等任务提供更好的数据基础,具有重要的实际应用价值和潜在的商业前景。
📄 摘要(原文)
Self-supervised video denoising methods typically extend image-based frameworks into the temporal dimension, yet they often struggle to integrate inter-frame temporal consistency with intra-frame spatial specificity. Existing Video Blind-Spot Networks (BSNs) require noise independence by masking the center pixel, this constraint prevents the use of spatial evidence for texture recovery, thereby severing spatiotemporal correlations and causing texture loss. To address this, we propose Frames2Residual (F2R), a spatiotemporal decoupling framework that explicitly divides self-supervised training into two distinct stages: blind temporal consistency modeling and non-blind spatial texture recovery. In Stage 1, a blind temporal estimator learns inter-frame consistency using a frame-wise blind strategy, producing a temporally consistent anchor. In Stage 2, a non-blind spatial refiner leverages this anchor to safely reintroduce the center frame and recover intra-frame high-frequency spatial residuals while preserving temporal stability. Extensive experiments demonstrate that our decoupling strategy allows F2R to outperform existing self-supervised methods on both sRGB and raw video benchmarks.