Hierarchical Semantic-Visual Fusion of Visible and Near-infrared Images for Long-range Haze Removal
作者: Yi Li, Xiaoxiong Wang, Jiawei Wang, Yi Chang, Kai Cao, Luxin Yan
分类: cs.CV, cs.AI
发布日期: 2025-07-05
备注: This work has been accepted by IEEE Transactions on Multimedia for publication
💡 一句话要点
提出一种层级语义-视觉融合框架,用于解决远距离图像去雾问题。
🎯 匹配领域: 支柱四:生成式动作 (Generative Motion) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 图像去雾 远距离图像 多模态融合 语义分割 近红外图像 层级融合 计算机视觉
📋 核心要点
- 现有图像去雾方法主要集中在短距离场景,无法有效去除远距离图像中严重的雾霾和信号损失。
- 提出层级语义-视觉融合框架,利用可见光和近红外图像的互补信息,分别提取语义信息和结构细节。
- 实验结果表明,该方法在真实远距离去雾场景中优于现有技术,并提供了一个新的可见光-红外雾霾数据集。
📝 摘要(中文)
过去十年,图像去雾技术取得了显著进展,但大多集中于短距离场景,远距离去雾研究不足。随着距离增加,散射增强导致严重的雾霾和信号损失,仅从可见光图像中恢复远距离细节变得不切实际。近红外光具有更强的雾穿透能力,通过多模态融合提供关键的互补线索。然而,现有方法侧重于内容集成,常常忽略可见光图像中嵌入的雾霾,导致结果存在残留雾霾。本文认为,红外和可见光模态不仅提供互补的低层视觉特征,还共享高层语义一致性。受此启发,我们提出了一种层级语义-视觉融合(HSVF)框架,包括用于重建无雾场景的语义流和用于融合近红外模态结构细节的视觉流。语义流首先通过对齐模态不变的内在表示来获得对雾霾鲁棒的语义预测。然后,共享的语义作为强先验,用于恢复严重雾霾降解下清晰且高对比度的远距离场景。同时,视觉流侧重于通过融合可见光和近红外图像的互补线索,从近红外图像中恢复丢失的结构细节。通过双流的协同作用,HSVF产生具有高对比度场景和丰富纹理细节的结果。此外,我们引入了一个新的像素对齐的可见光-红外雾霾数据集,带有语义标签,以方便基准测试。大量实验表明,我们的方法在真实远距离去雾方面优于最先进的方法。
🔬 方法详解
问题定义:论文旨在解决远距离图像去雾问题。现有方法在处理远距离图像时,由于严重的雾霾和信号损失,难以有效恢复图像细节,并且常常忽略可见光图像中嵌入的雾霾,导致去雾效果不佳。
核心思路:论文的核心思路是利用可见光和近红外图像的互补信息,通过层级语义-视觉融合的方式,分别提取图像的语义信息和结构细节。可见光图像提供语义信息,近红外图像提供结构信息,两者结合可以更有效地去除雾霾并恢复图像细节。
技术框架:该方法包含两个主要模块:语义流和视觉流。语义流负责从可见光图像中提取语义信息,并利用这些语义信息重建无雾场景。视觉流负责从近红外图像中提取结构细节,并将其与可见光图像的信息融合,以恢复图像的细节信息。两个流相互协作,共同完成去雾任务。
关键创新:该方法的主要创新在于提出了层级语义-视觉融合框架,将语义信息和视觉信息进行有效融合。通过语义流提取对雾霾鲁棒的语义信息,并将其作为先验知识用于恢复图像,从而提高了去雾效果。同时,利用视觉流提取近红外图像的结构细节,进一步增强了图像的细节信息。
关键设计:语义流通过对齐模态不变的内在表示来获得对雾霾鲁棒的语义预测。视觉流则侧重于通过融合可见光和近红外图像的互补线索,从近红外图像中恢复丢失的结构细节。此外,论文还提出了一个新的像素对齐的可见光-红外雾霾数据集,带有语义标签,以方便基准测试。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在真实远距离去雾场景中优于现有技术。具体来说,该方法在多个指标上取得了显著提升,例如PSNR和SSIM等。此外,该方法在视觉效果上也明显优于现有方法,能够更有效地去除雾霾,并恢复图像的细节信息。论文还提供了一个新的可见光-红外雾霾数据集,为后续研究提供了便利。
🎯 应用场景
该研究成果可应用于智能交通、安防监控、遥感成像等领域。在这些领域中,远距离图像常常受到雾霾的影响,导致图像质量下降,影响后续分析和应用。该方法可以有效去除雾霾,提高图像质量,从而提高相关系统的性能和可靠性。未来,该方法还可以扩展到其他多模态图像处理任务中。
📄 摘要(原文)
While image dehazing has advanced substantially in the past decade, most efforts have focused on short-range scenarios, leaving long-range haze removal under-explored. As distance increases, intensified scattering leads to severe haze and signal loss, making it impractical to recover distant details solely from visible images. Near-infrared, with superior fog penetration, offers critical complementary cues through multimodal fusion. However, existing methods focus on content integration while often neglecting haze embedded in visible images, leading to results with residual haze. In this work, we argue that the infrared and visible modalities not only provide complementary low-level visual features, but also share high-level semantic consistency. Motivated by this, we propose a Hierarchical Semantic-Visual Fusion (HSVF) framework, comprising a semantic stream to reconstruct haze-free scenes and a visual stream to incorporate structural details from the near-infrared modality. The semantic stream first acquires haze-robust semantic prediction by aligning modality-invariant intrinsic representations. Then the shared semantics act as strong priors to restore clear and high-contrast distant scenes under severe haze degradation. In parallel, the visual stream focuses on recovering lost structural details from near-infrared by fusing complementary cues from both visible and near-infrared images. Through the cooperation of dual streams, HSVF produces results that exhibit both high-contrast scenes and rich texture details. Moreover, we introduce a novel pixel-aligned visible-infrared haze dataset with semantic labels to facilitate benchmarking. Extensive experiments demonstrate the superiority of our method over state-of-the-art approaches in real-world long-range haze removal.