Panoptic Pairwise Distortion Graph
作者: Muhammad Kamran Janjua, Abdul Wahab, Bahador Rashidi
分类: cs.CV, cs.AI, cs.LG
发布日期: 2026-04-13
备注: Accepted to ICLR 2026
💡 一句话要点
提出基于区域结构化表示的Distortion Graph,用于图像对的细粒度质量评估。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 图像质量评估 失真图 区域级分析 多模态学习 图神经网络
📋 核心要点
- 现有图像质量评估方法侧重于整体图像分析,缺乏对图像区域级别失真的细粒度理解。
- 提出Distortion Graph (DG) 的概念,将图像对表示为区域的结构化图,显式建模区域间的失真关系。
- 构建了PandaSet数据集和PandaBench基准,并设计了Panda架构用于生成DG,实验表明现有MLLM难以应对区域级失真理解。
📝 摘要(中文)
本文提出了一种比较图像评估的新视角,将图像对表示为其区域的结构化组合。与现有方法侧重于整体图像分析(隐式依赖于区域级理解)不同,我们将场景图的图像内概念扩展到图像间,并提出了Distortion Graph (DG) 的新任务。DG将配对图像视为基于区域的结构化拓扑,并在紧凑且可解释的图结构中表示密集的退化信息,如失真类型、严重程度、比较和质量分数。为了实现学习失真图的任务,我们贡献了 (i) 区域级数据集 PandaSet,(ii) 具有不同区域级难度的基准测试套件 PandaBench,以及 (iii) 用于生成失真图的有效架构 Panda。我们证明了 PandaBench 对最先进的多模态大型语言模型 (MLLM) 提出了重大挑战,因为即使提供明确的区域提示,它们也无法理解区域级退化。我们表明,在 PandaSet 上进行训练或使用 DG 进行提示可以引发区域性的失真理解,从而为细粒度的结构化成对图像评估开辟新的方向。
🔬 方法详解
问题定义:现有图像质量评估方法通常关注整图的质量评估,忽略了图像局部区域可能存在的不同类型的失真以及它们之间的相互关系。这些方法无法提供细粒度的失真信息,限制了其在需要精确质量评估的应用场景中的应用。
核心思路:本文的核心思路是将图像对视为一个结构化的拓扑图,图中的节点代表图像的区域,边代表区域之间的失真关系。通过构建Distortion Graph (DG),可以显式地建模区域级别的失真类型、严重程度以及区域间的比较和质量评分。这种方法能够提供更细粒度、更可解释的图像质量评估结果。
技术框架:整体框架包括三个主要部分:1) 区域分割:将图像分割成多个区域,每个区域作为一个节点;2) 特征提取:提取每个区域的视觉特征,用于后续的失真关系判断;3) 图构建与推理:基于区域特征,构建Distortion Graph,并利用图神经网络进行推理,预测区域间的失真类型、严重程度和质量评分。
关键创新:该论文的关键创新在于提出了Distortion Graph (DG) 的概念,将图像质量评估问题转化为图结构学习问题。与传统的整图评估方法相比,DG能够提供更细粒度的区域级别失真信息,并且具有更好的可解释性。此外,PandaSet数据集和PandaBench基准的构建也为该领域的研究提供了新的资源。
关键设计:Panda架构采用多模态融合的方式,将视觉特征和文本提示信息结合起来,用于Distortion Graph的构建和推理。具体的网络结构包括区域特征提取模块、关系预测模块和质量评分模块。损失函数的设计考虑了失真类型预测的准确性和质量评分的回归精度。数据集PandaSet包含了多种类型的区域级失真,并提供了详细的标注信息。
🖼️ 关键图片
📊 实验亮点
实验结果表明,现有的多模态大型语言模型 (MLLM) 在 PandaBench 基准测试上表现不佳,即使提供明确的区域提示,也难以理解区域级退化。通过在 PandaSet 上进行训练或使用 DG 进行提示,可以显著提高模型对区域性失真的理解能力,为细粒度的结构化成对图像评估开辟了新的方向。具体性能提升数据未知。
🎯 应用场景
该研究成果可应用于图像增强、图像修复、图像压缩等领域,通过分析图像的区域级失真情况,可以更有针对性地进行图像处理,提高图像质量。此外,该方法还可以用于图像质量监控、图像检索等应用场景,为用户提供更准确、更可靠的图像质量评估结果。未来,该方法有望扩展到视频质量评估领域。
📄 摘要(原文)
In this work, we introduce a new perspective on comparative image assessment by representing an image pair as a structured composition of its regions. In contrast, existing methods focus on whole image analysis, while implicitly relying on region-level understanding. We extend the intra-image notion of a scene graph to inter-image, and propose a novel task of Distortion Graph (DG). DG treats paired images as a structured topology grounded in regions, and represents dense degradation information such as distortion type, severity, comparison and quality score in a compact interpretable graph structure. To realize the task of learning a distortion graph, we contribute (i) a region-level dataset, PandaSet, (ii) a benchmark suite, PandaBench, with varying region-level difficulty, and (iii) an efficient architecture, Panda, to generate distortion graphs. We demonstrate that PandaBench poses a significant challenge for state-of-the-art multimodal large language models (MLLMs) as they fail to understand region-level degradations even when fed with explicit region cues. We show that training on PandaSet or prompting with DG elicits region-wise distortion understanding, opening a new direction for fine-grained, structured pairwise image assessment.