Missing No More: Dictionary-Guided Cross-Modal Image Fusion under Missing Infrared
作者: Yafei Zhang, Meng Ma, Huafeng Li, Yu Liu
分类: cs.CV
发布日期: 2026-03-09
备注: This paper has been accepted by CVPR 2026
🔗 代码/项目: GITHUB
💡 一句话要点
提出一种字典引导的跨模态图像融合框架,解决缺失红外图像融合问题。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 图像融合 跨模态学习 缺失数据 字典学习 红外图像 可见光图像 系数域 表示学习
📋 核心要点
- 现有红外-可见光图像融合方法依赖两种模态同时存在,缺失红外数据时,像素级生成方法难以控制且缺乏可解释性。
- 提出一种字典引导的系数域融合框架,通过共享字典学习和系数转换,实现缺失红外信息的有效推理和融合。
- 实验表明,该方法在缺失红外场景下,显著提升了图像的感知质量和下游目标检测任务的性能。
📝 摘要(中文)
红外-可见光(IR-VIS)图像融合对于感知和安全至关重要,但大多数方法依赖于训练和推理过程中两种模态的可用性。当红外模态缺失时,像素空间生成替代方案难以控制,并且本质上缺乏可解释性。我们通过提出一个基于共享卷积字典的字典引导、系数域框架来解决缺失红外融合问题。该流程包含三个关键组件:(1)联合共享字典表示学习(JSRL)学习一个由红外和可见光模态共享的统一且可解释的原子空间;(2)可见光引导的红外推理(VGII)将可见光系数转移到系数域中的伪红外系数,并执行由冻结的大型语言模型作为弱语义先验引导的单步闭环细化;(3)通过表示推理的自适应融合(AFRI)通过窗口注意力和卷积混合在原子级别合并可见光结构和推断的红外线索,然后使用共享字典进行重建。这种编码-传输-融合-重建流程避免了不受控制的像素空间生成,同时确保了可解释的字典系数表示中的先验保留。在缺失红外设置下的实验表明,在感知质量和下游检测性能方面都有持续的改进。据我们所知,这代表了第一个联合学习共享字典并执行系数域推理融合以解决缺失红外融合的框架。源代码可在https://github.com/harukiv/DCMIF公开获得。
🔬 方法详解
问题定义:论文旨在解决红外-可见光图像融合中,当红外图像缺失时,如何有效地进行图像融合的问题。现有方法在红外图像缺失的情况下,通常采用像素空间的生成模型进行替代,但这些模型难以控制,且缺乏可解释性,导致融合效果不佳。
核心思路:论文的核心思路是将图像融合问题转换到系数域进行处理。通过学习一个共享的字典,将红外和可见光图像都表示为该字典的线性组合。在红外图像缺失时,利用可见光图像的系数来推断红外图像的系数,然后在系数域进行融合,最后再重建图像。这种方法避免了直接在像素空间生成红外图像,从而提高了可控性和可解释性。
技术框架:该方法的技术框架主要包含三个模块:1) 联合共享字典表示学习(JSRL):学习一个红外和可见光图像共享的字典。2) 可见光引导的红外推理(VGII):利用可见光图像的系数推断缺失的红外图像的系数,并使用大型语言模型作为弱语义先验进行细化。3) 通过表示推理的自适应融合(AFRI):在系数域进行自适应融合,然后使用共享字典重建融合后的图像。整体流程是编码-传输-融合-重建。
关键创新:该方法最重要的创新点在于提出了一个基于共享字典和系数域推理的图像融合框架,这是第一个针对缺失红外图像融合问题的系数域方法。通过将图像表示为共享字典的线性组合,并在系数域进行推理和融合,避免了直接在像素空间生成缺失的红外图像,从而提高了融合结果的可控性和可解释性。同时,利用大型语言模型作为弱语义先验,进一步提升了红外推理的准确性。
关键设计:在JSRL模块中,使用了卷积神经网络来学习共享字典。在VGII模块中,利用可见光图像的系数来预测红外图像的系数,并设计了一个闭环细化过程,使用冻结的大型语言模型作为弱语义先验来指导系数的调整。在AFRI模块中,使用了窗口注意力和卷积混合来融合红外和可见光图像的系数。损失函数包括重建损失、稀疏性约束和一致性约束,以保证融合结果的质量。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在缺失红外图像融合任务中取得了显著的性能提升。在感知质量方面,融合后的图像具有更清晰的细节和更自然的视觉效果。在下游目标检测任务中,该方法能够提高检测的准确率和召回率。与现有的基于像素空间生成的方法相比,该方法具有更好的可控性和可解释性。
🎯 应用场景
该研究成果可应用于安防监控、自动驾驶、夜视成像等领域。在这些场景中,红外图像可能由于传感器故障、恶劣天气等原因缺失,该方法能够利用可见光图像的信息,有效地推断出缺失的红外信息,从而提高系统的鲁棒性和可靠性。未来,该方法可以进一步扩展到其他模态的图像融合,例如SAR图像和可见光图像的融合。
📄 摘要(原文)
Infrared-visible (IR-VIS) image fusion is vital for perception and security, yet most methods rely on the availability of both modalities during training and inference. When the infrared modality is absent, pixel-space generative substitutes become hard to control and inherently lack interpretability. We address missing-IR fusion by proposing a dictionary-guided, coefficient-domain framework built upon a shared convolutional dictionary. The pipeline comprises three key components: (1) Joint Shared-dictionary Representation Learning (JSRL) learns a unified and interpretable atom space shared by both IR and VIS modalities; (2) VIS-Guided IR Inference (VGII) transfers VIS coefficients to pseudo-IR coefficients in the coefficient domain and performs a one-step closed-loop refinement guided by a frozen large language model as a weak semantic prior; and (3) Adaptive Fusion via Representation Inference (AFRI) merges VIS structures and inferred IR cues at the atom level through window attention and convolutional mixing, followed by reconstruction with the shared dictionary. This encode-transfer-fuse-reconstruct pipeline avoids uncontrolled pixel-space generation while ensuring prior preservation within interpretable dictionary-coefficient representation. Experiments under missing-IR settings demonstrate consistent improvements in perceptual quality and downstream detection performance. To our knowledge, this represents the first framework that jointly learns a shared dictionary and performs coefficient-domain inference-fusion to tackle missing-IR fusion. The source code is publicly available at https://github.com/harukiv/DCMIF.