UNIV: Unified Foundation Model for Infrared and Visible Modalities

作者: Fangyuan Mao, Shuo Wang, Jilin Mei, Shun Lu, Chen Min, Fuyang Liu, Xiaokun Feng, Meiqi Wu, Yu Hu

分类: cs.CV

发布日期: 2025-09-19 (更新: 2025-11-19)

💡 一句话要点

提出UNIV，通过跨模态对比学习解决红外-可见光融合中的模式偏见问题

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 红外可见光融合 跨模态学习 对比学习 模式偏见 基础模型

📋 核心要点

现有方法在红外-可见光融合中存在跨模态退化，原因是模型容易学习到表面的传感器模式，忽略了深层语义信息。
UNIV通过Patch跨模态对比学习（PCCL）构建统一的跨模态特征空间，对齐红外和可见光表示，避免模型陷入模式捷径。
实验表明，UNIV在红外语义分割和目标检测任务上取得了显著提升，同时保持了RGB任务的竞争力。

📝 摘要（中文）

联合RGB-红外感知对于在各种天气和光照条件下实现鲁棒性至关重要。虽然基础模型在单一模态中表现出色，但它们遭受了显著的跨模态退化，我们将其归因于模式捷径，即一种模式偏见，它优先考虑表面的传感器模式而不是潜在的语义。为了解决这个问题，我们提出了UNIV，一个用于红外和可见光模态的统一基础模型。UNIV的核心是Patch跨模态对比学习（PCCL），这是一种自监督对比学习策略，它构建了一个统一的跨模态特征空间。PCCL采用冻结的预训练模型来采样基于语义相似性的伪patch对，并通过吸引语义相关的对并排斥不相关的对来对齐红外-可见光表示。这个过程同时增强了跨模态对齐和类间语义可分性，引导模型专注于语义结构，而不是陷入模式捷径。为了进一步促进跨模态学习，我们引入了MVIP，迄今为止最全面的可见光-红外基准，包含跨越不同场景的98,992个精确对齐的图像对。大量的实验表明，UNIV在红外任务上表现出优越的性能（语义分割+1.7 mIoU，目标检测+0.7 mAP），同时在RGB任务上保持了具有竞争力的准确性。

🔬 方法详解

问题定义：现有方法在处理红外和可见光图像融合时，容易受到“模式捷径”的影响，即模型过度关注特定模态的表面纹理特征，而忽略了图像的深层语义信息，导致跨模态任务性能下降。尤其是在光照条件不佳或存在遮挡的情况下，这种问题更加突出。现有方法缺乏有效的跨模态对齐机制，无法充分利用两种模态的互补信息。

核心思路：UNIV的核心思路是通过跨模态对比学习，迫使模型学习红外和可见光图像之间共享的语义信息，从而克服模式偏见。具体来说，模型通过对比学习的方式，将语义相似的红外和可见光图像块在特征空间中拉近，而将语义不同的图像块推远，从而建立一个统一的跨模态特征空间。这种方式鼓励模型关注图像的语义结构，而不是仅仅依赖于表面的纹理特征。

技术框架：UNIV的整体框架包括以下几个主要步骤：1) 使用预训练模型（例如CLIP）提取红外和可见光图像的特征；2) 基于语义相似性，构建伪patch对，即红外图像块和与其语义最相似的可见光图像块；3) 使用Patch跨模态对比学习（PCCL）损失函数，对齐红外和可见光图像的特征表示；4) 在下游任务上进行微调，例如语义分割和目标检测。MVIP数据集被用于训练和评估。

关键创新：UNIV最重要的创新点在于提出了Patch跨模态对比学习（PCCL）策略。PCCL通过对比学习的方式，显式地对齐红外和可见光图像的特征表示，从而克服了模式偏见。与传统的对比学习方法不同，PCCL利用预训练模型来指导伪patch对的构建，从而提高了对比学习的效率和效果。此外，MVIP数据集的引入也为跨模态学习提供了更丰富的数据支持。

关键设计：PCCL的关键设计包括：1) 使用冻结的预训练模型（例如CLIP）提取特征，以保证语义信息的准确性；2) 基于余弦相似度计算红外和可见光图像块之间的语义相似性；3) 使用InfoNCE损失函数作为对比学习的损失函数，鼓励模型学习区分不同的语义类别；4) 精心设计的采样策略，确保采样的patch对具有足够的代表性。

🖼️ 关键图片

📊 实验亮点

实验结果表明，UNIV在红外语义分割任务上取得了1.7 mIoU的提升，在红外目标检测任务上取得了0.7 mAP的提升。同时，UNIV在RGB任务上保持了具有竞争力的准确性，表明该方法具有良好的泛化能力。这些结果验证了UNIV在跨模态学习方面的有效性，并证明了PCCL策略可以有效地克服模式偏见。

🎯 应用场景

UNIV模型在自动驾驶、安防监控、搜救等领域具有广泛的应用前景。通过融合红外和可见光信息，UNIV可以提高在恶劣天气和光照条件下的感知能力，例如在夜间或雾天中检测行人、车辆等目标。此外，UNIV还可以应用于遥感图像分析、医学图像诊断等领域，为相关领域的研究和应用提供新的思路。

📄 摘要（原文）

Joint RGB-infrared perception is essential for achieving robustness under diverse weather and illumination conditions. Although foundation models excel within single modalities, they suffer from substantial cross-modal degradation, an issue we attribute to a pattern shortcut, i.e., a modal bias that prioritizes superficial sensor patterns over underlying semantics. To address this problem, we introduce UNIV, a Unified foundation model for Infrared and Visible modalities. At the core of UNIV lies Patch Cross-modal Contrastive Learning (PCCL), a self-supervised contrastive learning strategy that constructs a unified cross-modal feature space. PCCL employs a frozen pre-trained model to sample pseudo patch pairs based on semantic similarity, and aligns infrared-visible representations by attracting semantically related pairs while repelling unrelated ones. This process simultaneously enhances cross-modal alignment and inter-class semantic separability, guiding the model to focus on semantic structure rather than falling into pattern shortcuts. To further enable cross-modal learning, we introduce MVIP, the most comprehensive visible-infrared benchmark to date, containing 98,992 precisely aligned image pairs across diverse scenes. Extensive experiments demonstrate UNIV's superior performance on infrared tasks (+1.7 mIoU for semantic segmentation and +0.7 mAP for detection), while maintaining competitive accuracy on RGB tasks.

UNIV: Unified Foundation Model for Infrared and Visible Modalities

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理