APEX: Assumption-free Projection-based Embedding eXamination Metric for Image Quality Assessment
作者: Caterina Gallegati, Monica Bianchini, Franco Scarselli, Vittorio Murino, Barbara Toniella Corradini
分类: cs.CV, cs.AI
发布日期: 2026-05-08
💡 一句话要点
提出APEX评估框架,利用切片Wasserstein距离实现无假设的图像质量评估
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 图像质量评估 生成模型 切片Wasserstein距离 开放词汇模型 特征分布 分布鲁棒性
📋 核心要点
- 现有FID等指标受限于封闭词汇特征和刚性参数化假设,难以准确评估现代生成模型的图像质量。
- APEX引入切片Wasserstein距离作为无假设的相似度度量,结合CLIP与DINOv2实现开放词汇特征提取。
- 实验证明APEX在视觉退化场景下具有更强的鲁棒性,且在跨域数据集评估中表现出优异的稳定性。
📝 摘要(中文)
随着生成模型视觉质量的飞速提升,传统的特征分布度量(如FID)仍是评估的主流标准。然而,这些指标受限于过时特征的封闭词汇瓶颈以及刚性参数化公式带来的假设偏差。尽管近期研究利用现代骨干网络解决了特征瓶颈问题,但仍未摆脱参数化限制。为填补这一空白,本文提出了APEX(Assumption-free Projection-based Embedding eXamination),这是一种利用切片Wasserstein距离(Sliced Wasserstein Distance)作为数学基础且无假设的相似度度量框架。理论与实验证据表明,APEX在处理高维空间时具有良好的可扩展性。此外,APEX具有嵌入无关性,并采用CLIP和DINOv2作为开放词汇基础模型进行特征提取。基准测试显示,APEX在面对视觉退化时表现出卓越的鲁棒性,并在跨数据集评估中展现出极高的稳定性。
🔬 方法详解
问题定义:现有图像质量评估(IQA)指标(如FID)依赖于高斯分布假设,且其特征提取器通常基于过时的分类模型(如Inception-v3),导致其在面对现代生成模型产生的高质量、多样化图像时,无法捕捉细粒度的语义特征,且存在严重的分布假设偏差。
核心思路:APEX的核心思想是摆脱对数据分布的参数化假设,利用切片Wasserstein距离(SWD)直接度量两个嵌入分布之间的差异。通过将高维分布投影到一维空间进行比较,既保留了分布的几何结构信息,又规避了计算高维最优传输的复杂性。
技术框架:APEX框架由特征提取层和度量计算层组成。首先,利用预训练的开放词汇模型(CLIP或DINOv2)将图像映射到高维嵌入空间;随后,通过随机投影将嵌入向量映射至一维子空间,并在该空间计算切片Wasserstein距离,最后通过聚合多个投影方向的距离得到最终的评估分数。
关键创新:APEX实现了“嵌入无关性”(Embedding-agnostic),允许灵活更换特征提取器;同时,通过引入SWD,彻底消除了传统指标中对数据分布必须服从特定参数化分布(如高斯分布)的硬性假设。
关键设计:该方法利用了SWD在处理高维数据时的线性复杂度优势,通过随机投影算子确保了计算的可扩展性。在特征提取阶段,利用CLIP和DINOv2的强大表征能力,确保了评估指标对图像语义和视觉细节的敏感度。
🖼️ 关键图片
📊 实验亮点
实验结果表明,APEX在面对多种视觉退化(如噪声、模糊、压缩伪影)时,表现出比FID更强的鲁棒性。在跨数据集评估中,APEX展现了极高的稳定性,能够有效区分不同生成质量的图像,且在计算效率上优于传统的基于最优传输的评估方法,是目前评估生成模型性能的有力竞争者。
🎯 应用场景
APEX可广泛应用于生成式AI领域,包括GAN、扩散模型(Diffusion Models)及自回归图像生成模型的性能评估。其在跨域数据集上的稳定性使其特别适用于评估模型在未知分布下的泛化能力,为图像修复、超分辨率及风格迁移等任务提供更可靠的质量监控工具。
📄 摘要(原文)
As generative models achieve unprecedented visual quality, the gold standard for image evaluation remains traditional feature-distribution metrics (e.g., FID). However, these metrics are provably hindered by the closed-vocabulary bottleneck of outdated features and the assumptive bias of rigid parametric formulations. Recent alternatives exploit modern backbones to solve the feature bottleneck, yet continue to suffer from parametric limitations. To close this gap, we introduce APEX (Assumption-free Projection-based Embedding eXamination), a novel evaluation framework leveraging the Sliced Wasserstein Distance as a mathematically grounded, assumption-free similarity measure. APEX inherits effective scalability to high-dimensional spaces, as we prove with theoretical and empirical evidences. Moreover, APEX is embedding-agnostic and uses two open-vocabulary foundation models, CLIP and DINOv2, as feature extractors. Benchmarking APEX against established baselines reveals superior robustness to visual degradations. Additionally, we show that APEX metrics exhibit intra- and cross-dataset stability, ensuring highly stable evaluations on out-of-domain datasets.