Dynamic Weight-based Temporal Aggregation for Low-light Video Enhancement

📄 arXiv: 2510.09450v1 📥 PDF

作者: Ruirui Lin, Guoxi Huang, Nantheera Anantrasirichai

分类: cs.CV

发布日期: 2025-10-10


💡 一句话要点

提出DWTA-Net,通过动态权重时序聚合增强低光视频质量,有效抑制噪声。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 低光视频增强 时序聚合 动态权重 光流估计 深度学习 视频处理 视觉状态空间

📋 核心要点

  1. 现有低光视频增强方法难以有效利用时序信息,导致在真实场景中噪声抑制效果不佳。
  2. DWTA-Net通过两阶段框架,分别利用视觉状态空间块和动态权重时序聚合,实现亮度、颜色和结构的恢复。
  3. 实验结果表明,DWTA-Net在真实低光视频上能有效抑制噪声和伪影,提供更好的视觉质量。

📝 摘要(中文)

低光视频增强(LLVE)由于噪声、低对比度和色彩退化而极具挑战性。基于学习的方法虽然推理速度快,但由于在有效利用时间信息方面存在局限性,因此在真实的低光场景中仍然难以处理严重的噪声。本文提出了DWTA-Net,一种新颖的两阶段框架,它联合利用短时和长时的时间线索。第一阶段采用视觉状态空间块进行多帧对齐,以局部一致性恢复亮度、颜色和结构。第二阶段引入了一个循环细化模块,该模块具有光流引导的基于动态权重的时序聚合,自适应地平衡静态和动态区域。纹理自适应损失进一步保留了精细的细节,同时促进了平坦区域的平滑性。在真实低光视频上的实验表明,与最先进的方法相比,DWTA-Net有效地抑制了噪声和伪影,提供了卓越的视觉质量。

🔬 方法详解

问题定义:低光视频增强旨在提升在光线不足环境下拍摄的视频的视觉质量。现有方法,尤其是基于深度学习的方法,在处理真实低光场景时,由于噪声严重、对比度低以及色彩失真等问题,仍然面临挑战。一个主要痛点是难以有效地利用视频中的时序信息,导致增强后的视频可能存在时间上的不一致性和伪影。

核心思路:DWTA-Net的核心思路是联合利用短时和长时的时序信息,通过两阶段的处理流程,逐步提升视频质量。第一阶段侧重于多帧对齐和局部一致性的恢复,第二阶段则通过动态权重的时序聚合,自适应地平衡静态和动态区域,从而更有效地抑制噪声和伪影。这种分阶段、自适应的时序信息利用是该方法的核心。

技术框架:DWTA-Net是一个两阶段的框架: 1. 第一阶段:多帧对齐与恢复。使用视觉状态空间(Visual State-Space)块进行多帧对齐,目的是恢复亮度、颜色和结构,并保持局部一致性。 2. 第二阶段:循环细化与时序聚合。引入循环细化模块,该模块基于光流引导的动态权重时序聚合。光流用于估计帧间的运动信息,动态权重则用于自适应地平衡不同帧的信息,从而更好地处理静态和动态区域。

关键创新:DWTA-Net的关键创新在于动态权重的时序聚合机制。传统方法通常采用简单的平均或加权平均来融合不同帧的信息,而DWTA-Net则根据光流信息,动态地调整不同帧的权重。这种自适应的权重调整使得网络能够更好地处理视频中的运动和变化,从而更有效地抑制噪声和伪影。此外,纹理自适应损失函数也是一个创新点,它能够更好地保留图像细节,同时平滑平坦区域。

关键设计: * 视觉状态空间块:用于多帧对齐,具体结构未知。 * 光流估计:用于指导动态权重的计算,具体的光流估计方法未知。 * 动态权重计算:基于光流信息,设计动态权重计算方法,以自适应地平衡静态和动态区域的信息。 * 纹理自适应损失:设计一种纹理自适应的损失函数,在保留细节的同时,促进平坦区域的平滑性。具体形式未知。

📊 实验亮点

DWTA-Net在真实低光视频数据集上取得了显著的性能提升,能够有效抑制噪声和伪影,提供更清晰、更自然的视觉效果。虽然论文中没有提供具体的量化指标和对比数据,但强调了其在视觉质量方面优于现有最先进的方法。实验结果表明,该方法在处理复杂光照条件和动态场景时具有较强的鲁棒性。

🎯 应用场景

DWTA-Net在安防监控、自动驾驶、医学影像等领域具有广泛的应用前景。在光线不足的环境下,该方法可以有效提升视频的清晰度和可辨识度,从而提高监控系统的可靠性,辅助驾驶员进行决策,并改善医学影像的诊断效果。未来,该技术有望进一步应用于智能家居、无人机航拍等领域,提升用户在低光环境下的视觉体验。

📄 摘要(原文)

Low-light video enhancement (LLVE) is challenging due to noise, low contrast, and color degradations. Learning-based approaches offer fast inference but still struggle with heavy noise in real low-light scenes, primarily due to limitations in effectively leveraging temporal information. In this paper, we address this issue with DWTA-Net, a novel two-stage framework that jointly exploits short- and long-term temporal cues. Stage I employs Visual State-Space blocks for multi-frame alignment, recovering brightness, color, and structure with local consistency. Stage II introduces a recurrent refinement module with dynamic weight-based temporal aggregation guided by optical flow, adaptively balancing static and dynamic regions. A texture-adaptive loss further preserves fine details while promoting smoothness in flat areas. Experiments on real-world low-light videos show that DWTA-Net effectively suppresses noise and artifacts, delivering superior visual quality compared with state-of-the-art methods.