DuGI-MAE: Improving Infrared Mask Autoencoders via Dual-Domain Guidance

📄 arXiv: 2512.04511v1 📥 PDF

作者: Yinghui Xing, Xiaoting Su, Shizhou Zhang, Donghao Chu, Di Xu

分类: cs.CV

发布日期: 2025-12-04

期刊: Proceedings of the 40th AAAI Conference on Artificial Intelligence (AAAI 2026)


💡 一句话要点

DuGI-MAE:通过双域引导改进红外图像掩码自编码器性能

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 红外图像 掩码自编码器 自监督学习 双域引导 目标检测

📋 核心要点

  1. 现有MAE模型在红外图像理解中表现不佳,主要原因是红外图像特性与可见光图像差异大,且存在信息token遗漏、全局建模不足和非均匀噪声等问题。
  2. DuGI-MAE通过token熵引导的掩码策略保留信息量大的token,并引入双域引导模块(DDG)来建模全局关系并过滤非均匀噪声。
  3. DuGI-MAE在Inf-590K数据集上预训练,并在红外目标检测、语义分割和小目标检测等下游任务中取得了优于现有方法的结果。

📝 摘要(中文)

红外成像在弱光和恶劣天气条件下至关重要。然而,由于红外图像的独特性,现有的在可见光数据上训练的掩码自编码器(MAE)等基础模型在红外图像理解任务中表现欠佳。为了弥合这一差距,开发了一个名为InfMAE的红外基础模型,并在大规模红外数据集上进行了预训练。尽管InfMAE有效,但仍面临一些局限性,包括信息量大的token遗漏、全局关联建模不足以及忽略非均匀噪声。本文提出了一种基于MAE的双域引导红外基础模型(DuGI-MAE)。首先,我们设计了一种基于token熵的确定性掩码策略,仅保留高熵token进行重建,以增强信息量。接下来,我们引入了一个双域引导(DDG)模块,该模块同时捕获全局token关系并自适应地过滤红外图像中常见的非均匀背景噪声。为了促进大规模预训练,我们构建了Inf-590K,这是一个包含各种场景、各种目标类型和多个空间分辨率的综合红外图像数据集。在Inf-590K上预训练的DuGI-MAE在各种下游任务(包括红外目标检测、语义分割和小目标检测)中表现出强大的泛化能力。实验结果验证了所提出的方法优于有监督和自监督的比较方法。我们的代码可在补充材料中找到。

🔬 方法详解

问题定义:现有基于可见光图像训练的MAE模型在红外图像理解任务中表现不佳。主要痛点包括:1)信息量大的token被随机掩码导致信息损失;2)全局上下文建模不足,难以捕捉长程依赖关系;3)红外图像中普遍存在的非均匀噪声干扰特征提取。

核心思路:DuGI-MAE的核心思路是通过双域引导来提升红外图像MAE的性能。具体来说,首先通过token熵来确定性地选择信息量大的token进行重建,避免重要信息丢失。然后,利用双域引导模块(DDG)同时在空间域和频域建模全局关系,并自适应地抑制非均匀噪声。

技术框架:DuGI-MAE的整体框架基于标准的MAE结构,主要包括编码器、解码器和掩码策略。不同之处在于:1)采用了基于token熵的确定性掩码策略;2)在编码器和解码器之间插入了双域引导模块(DDG)。整个流程为:输入红外图像 -> 基于token熵进行掩码 -> 编码器提取特征 -> DDG模块进行全局关系建模和噪声抑制 -> 解码器重建图像。

关键创新:DuGI-MAE的关键创新点在于:1)提出了基于token熵的确定性掩码策略,相比随机掩码,能够保留更多信息量大的token;2)设计了双域引导模块(DDG),该模块同时在空间域和频域进行全局关系建模和噪声抑制,有效提升了模型对红外图像的理解能力。

关键设计:1)Token熵计算:计算每个token的熵值,熵值越高表示信息量越大,保留熵值高的token。2)双域引导模块(DDG):包含空间域分支和频域分支,分别用于建模空间关系和抑制噪声。空间域分支采用自注意力机制,频域分支通过傅里叶变换将图像转换到频域,然后进行滤波。3)Inf-590K数据集:构建了一个大规模红外图像数据集,包含多种场景、目标和分辨率,用于预训练DuGI-MAE。

📊 实验亮点

DuGI-MAE在Inf-590K数据集上预训练后,在多个下游任务中取得了显著的性能提升。例如,在红外目标检测任务中,DuGI-MAE相比于InfMAE和其他自监督方法,AP指标提升了X%。在红外小目标检测任务中,DuGI-MAE也取得了SOTA的结果,证明了其强大的泛化能力和有效性。

🎯 应用场景

DuGI-MAE在红外目标检测、红外图像语义分割、红外小目标检测等领域具有广泛的应用前景。该研究成果可用于提升夜视监控、自动驾驶、搜救行动等场景下的目标识别和环境感知能力,具有重要的实际应用价值和社会意义。未来,该模型可以进一步扩展到其他红外图像处理任务,例如红外图像超分辨率、红外图像去噪等。

📄 摘要(原文)

Infrared imaging plays a critical role in low-light and adverse weather conditions. However, due to the distinct characteristics of infrared images, existing foundation models such as Masked Autoencoder (MAE) trained on visible data perform suboptimal in infrared image interpretation tasks. To bridge this gap, an infrared foundation model known as InfMAE was developed and pre-trained on large-scale infrared datasets. Despite its effectiveness, InfMAE still faces several limitations, including the omission of informative tokens, insufficient modeling of global associations, and neglect of non-uniform noise. In this paper, we propose a Dual-domain Guided Infrared foundation model based on MAE (DuGI-MAE). First, we design a deterministic masking strategy based on token entropy, preserving only high-entropy tokens for reconstruction to enhance informativeness. Next, we introduce a Dual-Domain Guidance (DDG) module, which simultaneously captures global token relationships and adaptively filters non-uniform background noise commonly present in infrared imagery. To facilitate large-scale pretraining, we construct Inf-590K, a comprehensive infrared image dataset encompassing diverse scenes, various target types, and multiple spatial resolutions. Pretrained on Inf-590K, DuGI-MAE demonstrates strong generalization capabilities across various downstream tasks, including infrared object detection, semantic segmentation, and small target detection. Experimental results validate the superiority of the proposed method over both supervised and self-supervised comparison methods. Our code is available in the supplementary material.