UNIV: Unified Foundation Model for Infrared and Visible Modalities
作者: Fangyuan Mao, Shuo Wang, Jilin Mei, Shun Lu, Chen Min, Fuyang Liu, Xiaokun Feng, Meiqi Wu, Yu Hu
分类: cs.CV
发布日期: 2025-09-19 (更新: 2025-11-19)
💡 一句话要点
提出UNIV,通过跨模态对比学习解决红外-可见光融合中的模式偏见问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 红外可见光融合 跨模态学习 对比学习 模式偏见 基础模型
📋 核心要点
- 现有方法在红外-可见光融合中存在跨模态退化,原因是模型容易学习到表面的传感器模式,忽略了深层语义信息。
- UNIV通过Patch跨模态对比学习(PCCL)构建统一的跨模态特征空间,对齐红外和可见光表示,避免模型陷入模式捷径。
- 实验表明,UNIV在红外语义分割和目标检测任务上取得了显著提升,同时保持了RGB任务的竞争力。
📝 摘要(中文)
联合RGB-红外感知对于在各种天气和光照条件下实现鲁棒性至关重要。虽然基础模型在单一模态中表现出色,但它们遭受了显著的跨模态退化,我们将其归因于模式捷径,即一种模式偏见,它优先考虑表面的传感器模式而不是潜在的语义。为了解决这个问题,我们提出了UNIV,一个用于红外和可见光模态的统一基础模型。UNIV的核心是Patch跨模态对比学习(PCCL),这是一种自监督对比学习策略,它构建了一个统一的跨模态特征空间。PCCL采用冻结的预训练模型来采样基于语义相似性的伪patch对,并通过吸引语义相关的对并排斥不相关的对来对齐红外-可见光表示。这个过程同时增强了跨模态对齐和类间语义可分性,引导模型专注于语义结构,而不是陷入模式捷径。为了进一步促进跨模态学习,我们引入了MVIP,迄今为止最全面的可见光-红外基准,包含跨越不同场景的98,992个精确对齐的图像对。大量的实验表明,UNIV在红外任务上表现出优越的性能(语义分割+1.7 mIoU,目标检测+0.7 mAP),同时在RGB任务上保持了具有竞争力的准确性。
🔬 方法详解
问题定义:现有方法在处理红外和可见光图像融合时,容易受到“模式捷径”的影响,即模型过度关注特定模态的表面纹理特征,而忽略了图像的深层语义信息,导致跨模态任务性能下降。尤其是在光照条件不佳或存在遮挡的情况下,这种问题更加突出。现有方法缺乏有效的跨模态对齐机制,无法充分利用两种模态的互补信息。
核心思路:UNIV的核心思路是通过跨模态对比学习,迫使模型学习红外和可见光图像之间共享的语义信息,从而克服模式偏见。具体来说,模型通过对比学习的方式,将语义相似的红外和可见光图像块在特征空间中拉近,而将语义不同的图像块推远,从而建立一个统一的跨模态特征空间。这种方式鼓励模型关注图像的语义结构,而不是仅仅依赖于表面的纹理特征。
技术框架:UNIV的整体框架包括以下几个主要步骤:1) 使用预训练模型(例如CLIP)提取红外和可见光图像的特征;2) 基于语义相似性,构建伪patch对,即红外图像块和与其语义最相似的可见光图像块;3) 使用Patch跨模态对比学习(PCCL)损失函数,对齐红外和可见光图像的特征表示;4) 在下游任务上进行微调,例如语义分割和目标检测。MVIP数据集被用于训练和评估。
关键创新:UNIV最重要的创新点在于提出了Patch跨模态对比学习(PCCL)策略。PCCL通过对比学习的方式,显式地对齐红外和可见光图像的特征表示,从而克服了模式偏见。与传统的对比学习方法不同,PCCL利用预训练模型来指导伪patch对的构建,从而提高了对比学习的效率和效果。此外,MVIP数据集的引入也为跨模态学习提供了更丰富的数据支持。
关键设计:PCCL的关键设计包括:1) 使用冻结的预训练模型(例如CLIP)提取特征,以保证语义信息的准确性;2) 基于余弦相似度计算红外和可见光图像块之间的语义相似性;3) 使用InfoNCE损失函数作为对比学习的损失函数,鼓励模型学习区分不同的语义类别;4) 精心设计的采样策略,确保采样的patch对具有足够的代表性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,UNIV在红外语义分割任务上取得了1.7 mIoU的提升,在红外目标检测任务上取得了0.7 mAP的提升。同时,UNIV在RGB任务上保持了具有竞争力的准确性,表明该方法具有良好的泛化能力。这些结果验证了UNIV在跨模态学习方面的有效性,并证明了PCCL策略可以有效地克服模式偏见。
🎯 应用场景
UNIV模型在自动驾驶、安防监控、搜救等领域具有广泛的应用前景。通过融合红外和可见光信息,UNIV可以提高在恶劣天气和光照条件下的感知能力,例如在夜间或雾天中检测行人、车辆等目标。此外,UNIV还可以应用于遥感图像分析、医学图像诊断等领域,为相关领域的研究和应用提供新的思路。
📄 摘要(原文)
Joint RGB-infrared perception is essential for achieving robustness under diverse weather and illumination conditions. Although foundation models excel within single modalities, they suffer from substantial cross-modal degradation, an issue we attribute to a pattern shortcut, i.e., a modal bias that prioritizes superficial sensor patterns over underlying semantics. To address this problem, we introduce UNIV, a Unified foundation model for Infrared and Visible modalities. At the core of UNIV lies Patch Cross-modal Contrastive Learning (PCCL), a self-supervised contrastive learning strategy that constructs a unified cross-modal feature space. PCCL employs a frozen pre-trained model to sample pseudo patch pairs based on semantic similarity, and aligns infrared-visible representations by attracting semantically related pairs while repelling unrelated ones. This process simultaneously enhances cross-modal alignment and inter-class semantic separability, guiding the model to focus on semantic structure rather than falling into pattern shortcuts. To further enable cross-modal learning, we introduce MVIP, the most comprehensive visible-infrared benchmark to date, containing 98,992 precisely aligned image pairs across diverse scenes. Extensive experiments demonstrate UNIV's superior performance on infrared tasks (+1.7 mIoU for semantic segmentation and +0.7 mAP for detection), while maintaining competitive accuracy on RGB tasks.