Bringing Multimodal Large Language Models to Infrared-Visible Image Fusion Quality Assessment
作者: Yuchen Guo, Junli Gong, Yao Lu, Xintong Xu, Yiuming Cheung, Weifeng Su
分类: cs.CV
发布日期: 2026-05-07
💡 一句话要点
提出FuScore框架,利用多模态大模型实现红外-可见光图像融合质量的细粒度评估
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态大模型 图像融合 质量评估 感知建模 奖励模型 计算机视觉
📋 核心要点
- 现有IVIF评估方法依赖手工统计或伪真值,且基于标量回归的奖励模型难以捕捉感知模糊性,导致细粒度区分能力不足。
- 提出FuScore框架,利用MLLM生成连续质量分数,通过多维度共识构建软标签,并引入三方目标函数优化模型训练。
- 实验表明,FuScore在评估一致性上显著优于现有指标,能更精准地反映人类视觉偏好,在多个基准测试中达到SOTA性能。
📝 摘要(中文)
红外-可见光图像融合(IVIF)旨在整合热信息与空间细节以增强感知。然而,现有的评估方法往往过度优化手工设计的无参考统计量或将源图像视为伪真值的全参考指标。近期基于奖励建模的IVIF方法虽借鉴了人类评分,但多采用标量回归,未能利用多模态大模型(MLLM)的推理能力,也未在监督中编码图像感知的模糊性;而简单引入MLLM进行离散的One-hot监督,则会导致质量相似的融合图像被强行归入不同等级。为此,本文提出了FuScore,利用MLLM模拟人类视觉感知,输出连续质量分数而非离散等级,从而实现对相似质量图像的细粒度区分。通过整合四个IVIF特定维度的共识构建软标签,并引入包含分布监督、源内及跨源Thurstone保真度的三方目标函数,实验证明FuScore在与人类视觉偏好的一致性上达到了SOTA水平。
🔬 方法详解
问题定义:现有IVIF评估方法存在两类痛点:一是依赖全参考指标导致对源图像的过度拟合;二是现有基于奖励建模的方法将评估简化为标量回归,忽略了图像感知的模糊性,且离散化监督导致模型无法区分质量相近的图像。
核心思路:引入多模态大模型(MLLM)作为评估器,通过其强大的推理能力模拟人类视觉感知。核心思想是将评估过程从离散分类转变为连续分数预测,并利用多维度评价指标的共识来量化感知的不确定性。
技术框架:FuScore框架包含MLLM感知模块、多维度共识标签生成模块以及三方目标函数优化模块。模型首先通过MLLM对融合图像进行多维度推理,随后利用这些维度的一致性生成软标签,最后通过联合损失函数进行训练。
关键创新:最重要的创新在于引入了“感知模糊性”的建模,通过四个IVIF特定子维度的共识程度来构建软标签,使模型能够学习到图像质量的分布特征,而非单一的硬标签,从而实现细粒度的质量判别。
关键设计:设计了三方目标函数:1. 基于分布的监督,用于拟合连续质量分数;2. 源内Thurstone保真度,确保同一源图像对下不同融合方法的排序正确;3. 跨源Thurstone保真度,实现跨场景的质量一致性排序。
🖼️ 关键图片
📊 实验亮点
FuScore在多个主流IVIF数据集上进行了广泛验证,结果显示其与人类视觉偏好的相关性显著优于现有的PSNR、SSIM等传统指标及基于深度学习的评估方法。特别是在处理质量相近的融合图像时,FuScore展现出极高的区分度,证明了其在复杂融合场景下的鲁棒性与准确性。
🎯 应用场景
该研究主要应用于红外与可见光图像融合算法的性能评估与优化。在安防监控、自动驾驶、医疗影像及军事侦察等领域,FuScore可作为一种更符合人类视觉感知的评价工具,指导融合算法的研发,提升复杂环境下的目标检测与场景理解能力。
📄 摘要(原文)
Infrared-Visible image fusion (IVIF) aims to integrate thermal information and detailed spatial structures into a single fused image to enhance perception. However, existing evaluation approaches tend to over-optimize both hand-crafted no-reference statistics and full-reference metrics that treat the source images as pseudo ground truths. Recent IVIF reward-modelling efforts learn from human ratings but use scalar regression on aggregated scores, neither leveraging the reasoning of Multimodal Large Language Models (MLLMs) nor encoding per-image perceptual ambiguity in their supervision, but naively introducing MLLMs with discrete one-hot supervision likewise collapses fused images of similar quality into different rating levels. To address this, we introduce FuScore, which utilizes an MLLM to mimic human visual perception by producing continuous quality score, rather than discrete level predictions, enabling fine-grained discrimination among fused images of similar quality. We exploit the agreement among four IVIF-specific sub-dimensions to construct a per-image soft label whose sharpness reflects how consensual the overall judgment is. We further introduce a tripartite objective combining per-image distributional supervision, within-source-pair Thurstone fidelity for method-level ordering, and cross-source-pair Thurstone fidelity for scene-level ordering across scenes. Extensive experiments demonstrate that FuScore achieves state-of-the-art correlation with human visual preferences.