LiBrA-Net: Lie-Algebraic Bilateral Affine Fields for Real-Time 4K Video Dehazing

📄 arXiv: 2605.11508v1 📥 PDF

作者: Yongcong Wang, Chengchao Shen, Guangwei Gao, Wei Wang, Pengwen Dai, Dianjie Lu, Guijuan Zhang, Zhuoran Zheng

分类: cs.CV

发布日期: 2026-05-12

备注: 10 pages, 5 figures


💡 一句话要点

提出LiBrA-Net以解决超高清4K视频去雾问题

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱八:物理动画 (Physics-based Animation)

关键词: 视频去雾 超高清 深度学习 李代数 实时处理 计算机视觉 图像恢复

📋 核心要点

  1. 现有的超高清视频去雾方法在性能和效率上存在显著不足,无法满足实时处理需求。
  2. 本文提出LiBrA-Net,通过将时空仿射场分解为空间-颜色和时间双边子网格,提升了去雾效率。
  3. LiBrA-Net在多个基准数据集上设定了新的性能标准,能够在单个GPU上以25 FPS处理4K视频。

📝 摘要(中文)

目前在超高清(UHD)视频去雾领域存在评估基准缺失的问题。此外,现有的视频去雾方法在处理连续的UHD序列时无法在消费级GPU上运行。本文提出了一种新的基准和高效方法,核心观察是大气去雾可简化为由低频深度场控制的逐像素仿射变换。基于此,我们提出了LiBrA-Net,通过在固定低分辨率下预测空间-颜色和时间双边子网格,结合其系数在$ ext{gl}(3)$李代数下进行正则化,利用Cayley参数化映射到可逆的GL(3)变换,并通过轻量级输入引导分支恢复高频细节。此外,我们发布了UHV-4K,这是第一个带有深度、传输和光流注释的4K视频去雾基准。在UHV-4K、REVIDE和HazeWorld数据集上,LiBrA-Net在视频去雾方法中设定了新的最先进水平,同时在单个GPU上以25 FPS的速度运行原生4K,参数仅为6.12 M。

🔬 方法详解

问题定义:本文旨在解决超高清(UHD)视频去雾中的性能瓶颈,现有方法在处理连续UHD序列时无法在消费级GPU上高效运行。

核心思路:我们提出的LiBrA-Net利用低频深度场将大气去雾问题简化为逐像素仿射变换,并通过双边网格进行编码,从而提高处理效率。

技术框架:LiBrA-Net的整体架构包括两个主要模块:空间-颜色双边子网格和时间双边子网格,二者在固定低分辨率下进行预测,并通过李代数进行正则化。

关键创新:最重要的创新在于将仿射场的分解与李代数结合,利用Cayley参数化实现可逆变换,显著提升了去雾效果和计算效率。

关键设计:网络设计中采用了轻量级输入引导分支来恢复高频细节,损失函数则结合了重建误差和正则化项,以确保生成结果的质量。

📊 实验亮点

LiBrA-Net在UHV-4K、REVIDE和HazeWorld数据集上设定了新的最先进水平,能够在单个GPU上以25 FPS处理原生4K视频,参数仅为6.12 M,显示出显著的性能提升。

🎯 应用场景

该研究的潜在应用领域包括视频监控、无人驾驶、虚拟现实等需要高质量视频处理的场景。通过提升视频去雾的效率和效果,LiBrA-Net能够为这些领域提供更清晰的视觉信息,增强用户体验和安全性。

📄 摘要(原文)

Currently, there is a gap in the field of ultra-high-definition (UHD) video dehazing due to the lack of a benchmark for evaluation. Furthermore, existing video dehazing methods cannot run on consumer-grade GPUs when processing continuous UHD sequences of 3--5 frames at a time. In this paper, we address both issues with a new benchmark and an efficient method. Our key observation is that atmospheric dehazing reduces to a per-pixel affine transform governed by the low-frequency depth field, which can be compactly encoded in bilateral grids whose prediction cost is decoupled from the output resolution. Building on this, we propose LiBrA-Net, which factorizes the spatiotemporal affine field into a spatial--color and a temporal bilateral sub-grid predicted at a fixed low resolution, fuses their coefficients in the $\mathfrak{gl}(3)$ Lie algebra under group-theoretic regularization, maps the result to invertible GL(3) transforms via a Cayley parameterization, and restores high-frequency detail through a lightweight input-guided branch. We further release UHV-4K, the first paired 4K video dehazing benchmark with depth, transmission, and optical-flow annotations on every frame. Across UHV-4K, REVIDE, and HazeWorld, LiBrA-Net sets a new state of the art among compared video dehazing methods while running native 4K at 25 FPS on a single GPU with only 6.12 M parameters. Code and data are available at https://anonymous.4open.science/r/LiBrA-Net-42B8.