SCENIR: Visual Semantic Clarity through Unsupervised Scene Graph Retrieval

📄 arXiv: 2505.15867v1 📥 PDF

作者: Nikolaos Chaidos, Angeliki Dimitriou, Maria Lymperaiou, Giorgos Stamou

分类: cs.CV, cs.LG

发布日期: 2025-05-21

期刊: ICML 2025


💡 一句话要点

SCENIR:提出基于无监督场景图检索的图像语义清晰化方法

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 图像检索 场景图 图神经网络 无监督学习 图自编码器 语义理解 反事实图像检索

📋 核心要点

  1. 现有图像检索模型易受低级视觉特征影响,缺乏对图像语义内容的有效理解。
  2. SCENIR利用图自编码器进行无监督场景图检索,强调语义信息,无需标注数据。
  3. 实验表明,SCENIR在检索性能和效率上优于现有方法,并推广到未标注数据集。

📝 摘要(中文)

尽管卷积和Transformer架构在图像检索领域占据主导地位,但这些模型容易受到颜色等低级视觉特征偏差的影响。认识到缺乏语义理解是关键限制,我们提出了一种新的基于场景图的检索框架SCENIR,该框架强调语义内容而非表面的图像特征。以往的场景图检索方法主要依赖于有监督的图神经网络(GNN),这需要由图像标题驱动的ground truth图对。然而,源于可变文本编码的基于标题监督的不一致性会降低检索可靠性。为了解决这些问题,我们提出了SCENIR,一个基于图自编码器的无监督检索框架,它消除了对标记训练数据的依赖。我们的模型在指标和运行时效率方面表现出卓越的性能,优于现有的基于视觉、多模态和有监督的GNN方法。我们进一步提倡使用图编辑距离(GED)作为场景图相似性的确定性和鲁棒的ground truth度量,首次在图像检索评估中取代了不一致的基于标题的替代方案。最后,我们通过将其应用于未标注的数据集(通过自动场景图生成)来验证我们方法的泛化性,同时大大推进了反事实图像检索的最新技术。

🔬 方法详解

问题定义:现有图像检索方法,特别是基于卷积和Transformer的模型,容易受到图像颜色等低级视觉特征的干扰,忽略了图像的语义内容。此外,基于场景图的检索方法通常依赖于有监督的图神经网络,需要大量的标注数据,而这些标注数据通常来自于图像标题,存在不一致性,影响检索的准确性。

核心思路:SCENIR的核心思路是利用无监督学习的方式,学习图像场景图的表示,从而避免对大量标注数据的依赖。通过图自编码器,模型能够学习到场景图中节点和边的潜在表示,并利用这些表示进行图像检索,从而更加关注图像的语义信息,而非表面的视觉特征。

技术框架:SCENIR框架主要包含以下几个模块:1) 场景图生成模块:用于从图像中提取场景图;2) 图自编码器模块:用于学习场景图的潜在表示;3) 检索模块:基于学习到的场景图表示,进行图像检索。整个流程是:首先,对图像进行场景图生成,然后将生成的场景图输入到图自编码器中进行学习,最后利用学习到的场景图表示进行图像检索。

关键创新:SCENIR的关键创新在于:1) 提出了一个基于图自编码器的无监督场景图检索框架,避免了对标注数据的依赖;2) 使用图编辑距离(GED)作为场景图相似性的度量标准,替代了以往基于标题的度量方法,提高了评估的准确性;3) 验证了该方法在未标注数据集上的泛化能力,通过自动场景图生成,实现了在无标注数据上的图像检索。

关键设计:SCENIR的关键设计包括:1) 图自编码器的网络结构,包括编码器和解码器的设计;2) 损失函数的设计,用于训练图自编码器,例如,可以使用重构损失和对比损失等;3) 场景图生成模块的设计,如何有效地从图像中提取场景图;4) 图编辑距离(GED)的计算方法,如何高效地计算两个场景图之间的GED。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SCENIR在图像检索任务中表现出优越的性能,超越了现有的基于视觉、多模态和有监督GNN的方法。该模型在指标和运行时效率方面均有提升,并且成功应用于未标注数据集,验证了其泛化能力。此外,论文首次在图像检索评估中采用图编辑距离(GED)作为ground truth度量,提高了评估的可靠性。

🎯 应用场景

SCENIR可应用于图像搜索引擎、反事实图像检索、视觉问答等领域。通过提升图像检索的语义理解能力,可以改善用户搜索体验,提高检索结果的准确性和相关性。此外,该方法在无标注数据集上的应用潜力,使其在数据稀缺场景下具有重要价值。

📄 摘要(原文)

Despite the dominance of convolutional and transformer-based architectures in image-to-image retrieval, these models are prone to biases arising from low-level visual features, such as color. Recognizing the lack of semantic understanding as a key limitation, we propose a novel scene graph-based retrieval framework that emphasizes semantic content over superficial image characteristics. Prior approaches to scene graph retrieval predominantly rely on supervised Graph Neural Networks (GNNs), which require ground truth graph pairs driven from image captions. However, the inconsistency of caption-based supervision stemming from variable text encodings undermine retrieval reliability. To address these, we present SCENIR, a Graph Autoencoder-based unsupervised retrieval framework, which eliminates the dependence on labeled training data. Our model demonstrates superior performance across metrics and runtime efficiency, outperforming existing vision-based, multimodal, and supervised GNN approaches. We further advocate for Graph Edit Distance (GED) as a deterministic and robust ground truth measure for scene graph similarity, replacing the inconsistent caption-based alternatives for the first time in image-to-image retrieval evaluation. Finally, we validate the generalizability of our method by applying it to unannotated datasets via automated scene graph generation, while substantially contributing in advancing state-of-the-art in counterfactual image retrieval.