Unsupervised Image Prior via Prompt Learning and CLIP Semantic Guidance for Low-Light Image Enhancement

📄 arXiv: 2405.11478v1 📥 PDF

作者: Igor Morawski, Kai He, Shusil Dangi, Winston H. Hsu

分类: cs.CV, eess.IV

发布日期: 2024-05-19

备注: Accepted to CVPR 2024 Workshop NTIRE: New Trends in Image Restoration and Enhancement workshop and Challenges


💡 一句话要点

提出基于Prompt学习和CLIP语义引导的无监督图像先验,用于低光照图像增强

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 低光照图像增强 无监督学习 CLIP模型 Prompt学习 视觉-语言模型

📋 核心要点

  1. 现有低光照图像增强方法依赖配对或非配对数据,数据收集困难且成本高昂。
  2. 利用CLIP的视觉-语言先验知识,通过Prompt学习引导低光照图像增强,无需正常光照数据。
  3. 实验表明,该方法在提升图像对比度、减少过度增强和抑制噪声放大方面表现出色,并提升了下游任务性能。

📝 摘要(中文)

目前,低光照条件对机器认知提出了重大挑战。本文没有假设人类和机器认知相关来优化模型,而是使用零参考低光照增强来提高下游任务模型的性能。我们提出利用丰富的视觉-语言CLIP先验来改进零参考低光照增强方法,而无需费力且难以收集的配对或非配对正常光照数据。我们提出了一种简单而有效的策略来学习提示,以帮助指导增强方法,并通过实验表明,在不需要正常光照数据的情况下学习到的提示可以改善图像对比度,减少过度增强,并减少噪声过度放大。接下来,我们提出重用CLIP模型进行语义引导,通过零样本开放词汇分类来优化低光照增强,以提高基于任务的性能,而不是人类视觉感知。我们进行了广泛的实验,结果表明,所提出的方法在各种数据集上都能持续提高基于任务的性能,并将我们的方法与最先进的方法进行比较,在各种低光照数据集上显示出良好的结果。

🔬 方法详解

问题定义:论文旨在解决低光照图像增强问题,现有方法依赖于配对或非配对的正常光照图像数据进行训练,而这些数据的获取往往成本高昂且费时费力。此外,现有方法通常针对人类视觉感知进行优化,而忽略了下游任务的性能。

核心思路:论文的核心思路是利用预训练的CLIP模型的强大视觉-语言先验知识,通过Prompt学习的方式,引导低光照图像的增强过程,从而避免对大量正常光照图像数据的依赖。同时,利用CLIP的零样本分类能力,针对下游任务进行语义引导,优化增强效果。

技术框架:整体框架包含两个主要部分:Prompt学习和CLIP语义引导。首先,通过Prompt学习模块,学习一组Prompt向量,这些向量能够引导图像增强模型生成更好的结果。然后,利用CLIP模型对增强后的图像进行零样本分类,根据下游任务的需求,调整增强效果。整个流程无需配对或非配对的正常光照数据。

关键创新:该论文的关键创新在于:1) 利用Prompt学习的方式,将CLIP的视觉-语言先验知识引入到低光照图像增强任务中,无需依赖正常光照数据。2) 利用CLIP的零样本分类能力,针对下游任务进行语义引导,优化增强效果,从而提高下游任务的性能。

关键设计:Prompt学习模块通过优化一组Prompt向量来实现,这些向量被添加到CLIP模型的文本编码器中,从而引导模型生成更符合要求的图像特征。损失函数的设计包括图像质量损失和语义一致性损失,图像质量损失用于保证增强后的图像具有良好的视觉效果,语义一致性损失用于保证增强后的图像与下游任务的需求保持一致。具体的网络结构和参数设置在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在多个低光照数据集上取得了显著的性能提升,在图像对比度、噪声抑制和过度增强控制方面均优于现有方法。更重要的是,该方法在下游任务(如目标检测)上取得了显著的性能提升,证明了其有效性和实用性。具体的数据指标和对比结果在论文中有详细展示。

🎯 应用场景

该研究成果可应用于安防监控、自动驾驶、医学影像等领域,在这些场景中,低光照条件下的图像质量严重影响了机器的识别和分析能力。该方法无需大量标注数据,具有很高的实用价值,有望提升相关系统的智能化水平和可靠性。

📄 摘要(原文)

Currently, low-light conditions present a significant challenge for machine cognition. In this paper, rather than optimizing models by assuming that human and machine cognition are correlated, we use zero-reference low-light enhancement to improve the performance of downstream task models. We propose to improve the zero-reference low-light enhancement method by leveraging the rich visual-linguistic CLIP prior without any need for paired or unpaired normal-light data, which is laborious and difficult to collect. We propose a simple but effective strategy to learn prompts that help guide the enhancement method and experimentally show that the prompts learned without any need for normal-light data improve image contrast, reduce over-enhancement, and reduce noise over-amplification. Next, we propose to reuse the CLIP model for semantic guidance via zero-shot open vocabulary classification to optimize low-light enhancement for task-based performance rather than human visual perception. We conduct extensive experimental results showing that the proposed method leads to consistent improvements across various datasets regarding task-based performance and compare our method against state-of-the-art methods, showing favorable results across various low-light datasets.