LiBrA-Net: Lie-Algebraic Bilateral Affine Fields for Real-Time 4K Video Dehazing

作者: Yongcong Wang, Chengchao Shen, Guangwei Gao, Wei Wang, Pengwen Dai, Dianjie Lu, Guijuan Zhang, Zhuoran Zheng

分类: cs.CV

发布日期: 2026-05-12

备注: 10 pages, 5 figures

💡 一句话要点

提出LiBrA-Net以解决超高清4K视频去雾问题

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics) 支柱八：物理动画 (Physics-based Animation)

关键词: 视频去雾 超高清 深度学习 李代数 实时处理 计算机视觉 图像恢复

📋 核心要点

现有的超高清视频去雾方法在性能和效率上存在显著不足，无法满足实时处理需求。
本文提出LiBrA-Net，通过将时空仿射场分解为空间-颜色和时间双边子网格，提升了去雾效率。
LiBrA-Net在多个基准数据集上设定了新的性能标准，能够在单个GPU上以25 FPS处理4K视频。

📝 摘要（中文）

目前在超高清（UHD）视频去雾领域存在评估基准缺失的问题。此外，现有的视频去雾方法在处理连续的UHD序列时无法在消费级GPU上运行。本文提出了一种新的基准和高效方法，核心观察是大气去雾可简化为由低频深度场控制的逐像素仿射变换。基于此，我们提出了LiBrA-Net，通过在固定低分辨率下预测空间-颜色和时间双边子网格，结合其系数在$ ext{gl}(3)$李代数下进行正则化，利用Cayley参数化映射到可逆的GL(3)变换，并通过轻量级输入引导分支恢复高频细节。此外，我们发布了UHV-4K，这是第一个带有深度、传输和光流注释的4K视频去雾基准。在UHV-4K、REVIDE和HazeWorld数据集上，LiBrA-Net在视频去雾方法中设定了新的最先进水平，同时在单个GPU上以25 FPS的速度运行原生4K，参数仅为6.12 M。

🔬 方法详解

问题定义：本文旨在解决超高清（UHD）视频去雾中的性能瓶颈，现有方法在处理连续UHD序列时无法在消费级GPU上高效运行。

核心思路：我们提出的LiBrA-Net利用低频深度场将大气去雾问题简化为逐像素仿射变换，并通过双边网格进行编码，从而提高处理效率。

技术框架：LiBrA-Net的整体架构包括两个主要模块：空间-颜色双边子网格和时间双边子网格，二者在固定低分辨率下进行预测，并通过李代数进行正则化。

关键创新：最重要的创新在于将仿射场的分解与李代数结合，利用Cayley参数化实现可逆变换，显著提升了去雾效果和计算效率。

关键设计：网络设计中采用了轻量级输入引导分支来恢复高频细节，损失函数则结合了重建误差和正则化项，以确保生成结果的质量。

📊 实验亮点

LiBrA-Net在UHV-4K、REVIDE和HazeWorld数据集上设定了新的最先进水平，能够在单个GPU上以25 FPS处理原生4K视频，参数仅为6.12 M，显示出显著的性能提升。

🎯 应用场景

该研究的潜在应用领域包括视频监控、无人驾驶、虚拟现实等需要高质量视频处理的场景。通过提升视频去雾的效率和效果，LiBrA-Net能够为这些领域提供更清晰的视觉信息，增强用户体验和安全性。

📄 摘要（原文）

Currently, there is a gap in the field of ultra-high-definition (UHD) video dehazing due to the lack of a benchmark for evaluation. Furthermore, existing video dehazing methods cannot run on consumer-grade GPUs when processing continuous UHD sequences of 3--5 frames at a time. In this paper, we address both issues with a new benchmark and an efficient method. Our key observation is that atmospheric dehazing reduces to a per-pixel affine transform governed by the low-frequency depth field, which can be compactly encoded in bilateral grids whose prediction cost is decoupled from the output resolution. Building on this, we propose LiBrA-Net, which factorizes the spatiotemporal affine field into a spatial--color and a temporal bilateral sub-grid predicted at a fixed low resolution, fuses their coefficients in the $\mathfrak{gl}(3)$ Lie algebra under group-theoretic regularization, maps the result to invertible GL(3) transforms via a Cayley parameterization, and restores high-frequency detail through a lightweight input-guided branch. We further release UHV-4K, the first paired 4K video dehazing benchmark with depth, transmission, and optical-flow annotations on every frame. Across UHV-4K, REVIDE, and HazeWorld, LiBrA-Net sets a new state of the art among compared video dehazing methods while running native 4K at 25 FPS on a single GPU with only 6.12 M parameters. Code and data are available at https://anonymous.4open.science/r/LiBrA-Net-42B8.

LiBrA-Net: Lie-Algebraic Bilateral Affine Fields for Real-Time 4K Video Dehazing

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理