Chain-of-Restoration: Multi-Task Image Restoration Models are Zero-Shot Step-by-Step Universal Image Restorers

📄 arXiv: 2410.08688v2 📥 PDF

作者: Jin Cao, Deyu Meng, Xiangyong Cao

分类: cs.CV, cs.AI

发布日期: 2024-10-11 (更新: 2024-12-04)

备注: code: https://github.com/toummHus/Chain-of-Restoration


💡 一句话要点

提出Chain-of-Restoration,实现多任务图像复原模型零样本逐步通用图像复原

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 图像复原 通用图像复原 复合退化 零样本学习 多任务学习

📋 核心要点

  1. 现有图像复原方法在处理复合退化时,需要指数级增长的训练数据,导致训练负担过重。
  2. 论文提出Chain-of-Restoration机制,通过逐步去除退化基的方式,实现零样本通用图像复原。
  3. 实验表明,CoR显著提升了模型在复合退化去除方面的性能,达到或超过了SOTA方法。

📝 摘要(中文)

以往的图像复原(IR)方法通常侧重于孤立的退化,而最近的研究越来越关注于解决涉及多个孤立退化的复杂组合的复合退化。然而,当前针对复合退化的IR方法需要构建包含指数级数量的可能退化组合的训练数据,这带来了巨大的负担。为了缓解这个问题,本文提出了一种新的任务设置,即通用图像复原(UIR)。具体来说,UIR不需要在所有退化组合上进行训练,而只需要在一组退化基上进行训练,然后以零样本的方式去除这些基可能组成的任何退化。受到Chain-of-Thought的启发,Chain-of-Thought提示大型语言模型(LLM)逐步解决问题,我们提出了Chain-of-Restoration (CoR)机制,该机制指示模型逐步去除未知的复合退化。通过将一个简单的退化判别器集成到预训练的多任务模型中,CoR促进了模型逐步去除每个退化基的过程,并持续该过程直到图像从未知的复合退化中完全恢复。大量的实验表明,CoR可以显著提高模型在去除复合退化方面的性能,达到与那些在所有退化上训练的state-of-the-art (SoTA)方法相当或更好的结果。

🔬 方法详解

问题定义:论文旨在解决复合图像退化问题,即图像同时受到多种退化因素的影响。现有方法的主要痛点在于,当退化类型增多时,需要训练模型来处理所有可能的退化组合,这导致训练数据量呈指数级增长,训练成本高昂。

核心思路:论文受到Chain-of-Thought的启发,将复合退化去除过程分解为多个步骤,每一步去除一种已知的退化基。通过逐步迭代,最终将图像恢复到清晰状态。这种方法避免了直接训练模型来处理所有可能的退化组合,从而降低了训练成本。

技术框架:CoR的核心框架包含两个主要模块:预训练的多任务图像复原模型和退化判别器。首先,使用一组退化基对多任务模型进行预训练,使其具备去除这些基本退化的能力。然后,引入一个退化判别器,用于判断当前图像中是否存在某种退化基。在推理阶段,CoR首先使用退化判别器识别图像中存在的退化基,然后使用预训练的多任务模型去除该退化。重复这个过程,直到图像中的所有退化都被去除。

关键创新:CoR的关键创新在于将图像复原过程分解为多个步骤,每一步只处理一种退化基。这种“分而治之”的策略有效地降低了问题的复杂度,使得模型能够以零样本的方式处理未知的复合退化。与现有方法相比,CoR不需要训练模型来处理所有可能的退化组合,从而大大降低了训练成本。

关键设计:退化判别器可以使用任何分类模型,论文中采用了一个简单的卷积神经网络。损失函数包括图像复原损失和退化判别损失。图像复原损失用于训练多任务模型,使其能够有效地去除退化。退化判别损失用于训练退化判别器,使其能够准确地识别图像中存在的退化基。具体的网络结构和参数设置在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,CoR在去除复合退化方面取得了显著的性能提升,与在所有退化上训练的SOTA方法相比,CoR取得了相当甚至更好的结果。这表明CoR能够有效地利用预训练的多任务模型和退化判别器,以零样本的方式处理未知的复合退化。具体的性能数据和对比结果在论文中有详细展示。

🎯 应用场景

该研究成果可应用于各种图像处理领域,例如老照片修复、视频监控图像增强、医学图像处理等。通过该方法,可以有效地去除图像中的各种复杂退化,提高图像质量,从而提升后续图像分析和理解的准确性。未来,该方法有望在智能安防、医疗诊断等领域发挥重要作用。

📄 摘要(原文)

Despite previous image restoration (IR) methods have often concentrated on isolated degradations, recent research has increasingly focused on addressing composite degradations involving a complex combination of multiple isolated degradations. However, current IR methods for composite degradations require building training data that contain an exponential number of possible degradation combinations, which brings in a significant burden. To alleviate this issue, this paper proposes a new task setting, i.e. Universal Image Restoration (UIR). Specifically, UIR doesn't require training on all the degradation combinations but only on a set of degradation bases and then removing any degradation that these bases can potentially compose in a zero-shot manner. Inspired by the Chain-of-Thought that prompts large language models (LLMs) to address problems step-by-step, we propose Chain-of-Restoration (CoR) mechanism, which instructs models to remove unknown composite degradations step-by-step. By integrating a simple Degradation Discriminator into pre-trained multi-task models, CoR facilitates the process where models remove one degradation basis per step, continuing this process until the image is fully restored from the unknown composite degradation. Extensive experiments show that CoR can significantly improve model performance in removing composite degradations, achieving comparable or better results than those state-of-the-art (SoTA) methods trained on all degradations.