EvaNet: Towards More Efficient and Consistent Infrared and Visible Image Fusion Assessment
作者: Chunyang Cheng, Tianyang Xu, Xiao-Jun Wu, Tao Zhou, Hui Li, Zhangyong Tang, Josef Kittler
分类: cs.CV
发布日期: 2026-04-06
💡 一句话要点
提出EvaNet,一种高效且与人类视觉感知更一致的红外与可见光图像融合评估框架
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 图像融合 评估指标 轻量级网络 对比学习 一致性评估 红外图像 可见光图像
📋 核心要点
- 现有图像融合评估指标计算复杂,且与人类视觉感知一致性较差,难以准确评估融合质量。
- EvaNet通过轻量级网络近似常用指标,并采用分而治之策略,将融合图像分解为红外和可见光分量进行评估。
- 实验表明,EvaNet在效率和一致性方面均优于传统方法,速度提升高达1000倍,并与人类视觉感知更对齐。
📝 摘要(中文)
图像融合研究中,评估至关重要。然而,现有评估指标通常直接借用自其他视觉任务,缺乏适当调整。这些传统指标通常基于复杂的图像变换,不仅无法捕捉融合结果的真实质量,而且计算量大。为了解决这些问题,我们提出了一种专门为图像融合量身定制的统一评估框架。其核心是一个轻量级网络,旨在高效地近似广泛使用的指标,遵循分而治之的策略。与直接评估融合图像和源图像之间相似性的传统方法不同,我们首先将融合结果分解为红外和可见光分量。然后,使用评估模型来测量这些分离分量中的信息保留程度,从而有效地解耦融合评估过程。在训练过程中,我们结合了对比学习策略,并通过大型语言模型提供的感知场景评估来指导我们的评估模型。最后,我们提出了第一个一致性评估框架,该框架使用独立的无参考分数和下游任务性能作为客观参考,来衡量图像融合指标与人类视觉感知之间的一致性。大量实验表明,我们的基于学习的评估范例在各种标准图像融合基准上提供了卓越的效率(高达1000倍的速度提升)和更高的一致性。
🔬 方法详解
问题定义:现有红外与可见光图像融合的评估指标存在两个主要问题。一是计算复杂度高,依赖复杂的图像变换,导致评估效率低下。二是与人类视觉感知的一致性较差,无法准确反映融合图像的质量。这些问题阻碍了图像融合算法的快速迭代和优化。
核心思路:EvaNet的核心思路是采用一个轻量级的神经网络来近似传统的图像融合评估指标,从而提高评估效率。同时,为了提高评估结果与人类视觉感知的一致性,EvaNet采用了一种分而治之的策略,将融合图像分解为红外和可见光分量,分别评估信息保留程度。此外,还引入了对比学习和大型语言模型提供的感知场景评估来指导模型的训练。
技术框架:EvaNet的整体框架包括以下几个主要模块:1) 融合图像分解模块,将融合图像分解为红外和可见光分量;2) 轻量级评估网络,用于评估红外和可见光分量的信息保留程度;3) 对比学习模块,用于提高评估结果的区分度;4) 一致性评估框架,用于衡量评估指标与人类视觉感知之间的一致性。整个流程是,输入融合图像,经过分解模块得到红外和可见光分量,然后通过评估网络得到评估分数,最后通过一致性评估框架进行验证。
关键创新:EvaNet最重要的技术创新点在于其轻量级网络结构和分而治之的评估策略。轻量级网络结构显著提高了评估效率,而分而治之的评估策略则提高了评估结果与人类视觉感知的一致性。此外,引入对比学习和大型语言模型提供的感知场景评估也进一步提升了评估的准确性。与现有方法相比,EvaNet在效率和一致性方面都有显著优势。
关键设计:EvaNet的关键设计包括:1) 轻量级网络结构的选择,采用了MobileNet等高效的网络结构;2) 分解模块的设计,采用了基于图像梯度的分解方法;3) 对比学习损失函数的设计,采用了InfoNCE损失函数;4) 一致性评估框架的设计,采用了基于Spearman等级相关系数的评估方法。此外,还使用了大型语言模型来提供感知场景评估,从而更好地指导模型的训练。
🖼️ 关键图片
📊 实验亮点
实验结果表明,EvaNet在评估效率上比传统方法快1000倍,同时在与人类视觉感知的一致性方面也取得了显著提升。在多个标准图像融合基准测试中,EvaNet的表现均优于现有评估指标,证明了其有效性和优越性。
🎯 应用场景
EvaNet可广泛应用于红外与可见光图像融合领域,例如夜视监控、自动驾驶、军事侦察等。它能够为图像融合算法的开发和优化提供高效、准确的评估,加速相关技术的进步。此外,该框架也可推广到其他图像融合任务的评估中,具有重要的实际应用价值和未来发展潜力。
📄 摘要(原文)
Evaluation is essential in image fusion research, yet most existing metrics are directly borrowed from other vision tasks without proper adaptation. These traditional metrics, often based on complex image transformations, not only fail to capture the true quality of the fusion results but also are computationally demanding. To address these issues, we propose a unified evaluation framework specifically tailored for image fusion. At its core is a lightweight network designed efficiently to approximate widely used metrics, following a divide-and-conquer strategy. Unlike conventional approaches that directly assess similarity between fused and source images, we first decompose the fusion result into infrared and visible components. The evaluation model is then used to measure the degree of information preservation in these separated components, effectively disentangling the fusion evaluation process. During training, we incorporate a contrastive learning strategy and inform our evaluation model by perceptual scene assessment provided by a large language model. Last, we propose the first consistency evaluation framework, which measures the alignment between image fusion metrics and human visual perception, using both independent no-reference scores and downstream tasks performance as objective references. Extensive experiments show that our learning-based evaluation paradigm delivers both superior efficiency (up to 1,000 times faster) and greater consistency across a range of standard image fusion benchmarks. Our code will be publicly available atthis https URL.