Leveraging Multimodal Large Language Models for All-in-One Image Restoration via a Mixture of Frequency Experts

📄 arXiv: 2605.11444v1 📥 PDF

作者: Eunho Lee, Youngbae Hwang, Rei Kawakami

分类: cs.CV

发布日期: 2026-05-12


💡 一句话要点

提出基于多模态大语言模型的全能图像复原框架,解决复杂退化建模问题。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 图像复原 多模态大语言模型 频率专家 退化建模 深度学习

📋 核心要点

  1. 现有全能图像复原方法将退化视为离散类别,难以建模复合退化中的连续关系结构。
  2. 利用多模态大语言模型提取的特征作为指导,增强网络对退化信息的感知和利用能力。
  3. 实验表明,该方法在多个数据集上取得了显著的性能提升,尤其在CDD11数据集上效果突出。

📝 摘要(中文)

本文提出了一种基于多模态大语言模型(MLLM)引导的图像复原框架,用于解决全能图像复原问题,即从受各种未知退化影响的输入中恢复干净图像。现有方法通常将退化视为离散类别,限制了其对复合退化中连续关系结构的建模能力。本文利用MLLM提取的多模态嵌入作为低级复原的指导,通过MLLM引导的融合块(MGFB)将MLLM特征注入到编码器-解码器架构中,以增强退化感知表示。此外,本文还引入了混合频率专家(MoFE)模块,该模块使用MLLM引导的上下文线索自适应地组合频率专家。为了进一步改进专家路由,本文设计了一个带有关系对齐损失的MLLM引导的路由器,鼓励与退化输入的嵌入空间关系一致的路由模式。在多个基准数据集上的大量实验表明,该方法在各种复原设置中都取得了强大的性能,并在具有挑战性的CDD11数据集上建立了新的state-of-the-art,超越了以前的方法高达1.35 dB。

🔬 方法详解

问题定义:全能图像复原旨在从各种未知退化影响的图像中恢复干净图像。现有方法通常将不同的退化类型视为离散的类别,这限制了它们建模复合退化中存在的连续关系结构的能力,导致在处理复杂退化时性能下降。

核心思路:本文的核心思路是利用多模态大语言模型(MLLM)来提取图像退化的特征表示,并将这些特征作为指导信息注入到图像复原网络中。通过MLLM,可以更好地理解和建模图像退化之间的连续关系,从而提高复原性能。

技术框架:该框架主要包含以下几个模块:1) 图像复原网络(编码器-解码器结构);2) MLLM特征提取模块;3) MLLM引导的融合块(MGFB),用于将MLLM特征融入到图像复原网络的编码器中;4) 混合频率专家(MoFE)模块,用于自适应地组合不同频率的专家;5) MLLM引导的路由器,用于指导MoFE模块中专家的选择。整体流程是:输入退化图像,通过MLLM提取退化特征,然后将特征通过MGFB融入到图像复原网络中,最后通过MoFE模块进行频率域的自适应处理,得到复原后的图像。

关键创新:该方法最重要的创新点在于利用MLLM来指导图像复原过程。具体来说,通过MLLM提取的退化特征可以更好地表示图像退化之间的连续关系,从而提高复原性能。此外,MLLM引导的路由器和混合频率专家模块也进一步提升了模型的自适应性和表达能力。与现有方法相比,该方法能够更好地处理复杂的复合退化。

关键设计:MLLM引导的融合块(MGFB)的设计是关键。它负责将MLLM提取的特征有效地融入到图像复原网络的编码器中。混合频率专家(MoFE)模块通过学习不同频率成分的特征,并根据MLLM的引导自适应地组合这些特征,从而提高复原效果。关系对齐损失用于约束MLLM引导的路由器,使其能够学习到与退化输入的嵌入空间关系一致的路由模式。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该方法在多个图像复原基准数据集上取得了显著的性能提升,尤其在具有挑战性的CDD11数据集上,相比之前的state-of-the-art方法,PSNR指标提升了高达1.35 dB。这表明该方法在处理复杂退化问题方面具有显著优势。

🎯 应用场景

该研究成果可应用于各种图像复原场景,如老照片修复、监控视频增强、医学图像重建等。通过利用多模态大语言模型,可以更有效地处理复杂的图像退化问题,提高图像质量和视觉效果。未来,该技术有望在智能安防、医疗诊断、文化遗产保护等领域发挥重要作用。

📄 摘要(原文)

All-in-one image restoration seeks to recover clean images from inputs affected by diverse and unknown degradations using a unified framework. Recent methods have shown strong performance by identifying degradation characteristics to guide the restoration process. However, many of them treat degradations as discrete categories, which limits their ability to model the continuous relational structure that arises in composite degradations. To address this issue, we propose a multimodal large language model (MLLM)-guided image restoration framework that exploits multimodal embeddings as guidance for low-level restoration. Specifically, MLLM-derived features are injected into an encoder-decoder architecture through an MLLM-guided fusion block (MGFB) to enhance degradation-aware representations. In addition, we incorporate a mixture-of-frequency-experts (MoFE) module that adaptively combines frequency experts using MLLM-guided contextual cues. To further improve expert routing, we design an MLLM-guided router with a relational alignment loss that encourages routing patterns consistent with the embedding-space relationships of degraded inputs. Extensive experiments on multiple benchmarks show that the proposed method achieves strong performance across diverse restoration settings and establishes a new state of the art on the challenging CDD11 dataset, outperforming previous methods by up to 1.35 dB.