Shape-of-You: Fused Gromov-Wasserstein Optimal Transport for Semantic Correspondence in-the-Wild

📄 arXiv: 2603.11618v1 📥 PDF

作者: Jiin Im, Sisung Liu, Je Hyeong Hong

分类: cs.CV, cs.LG

发布日期: 2026-03-12

备注: Accepted at CVPR 2026. Supplementary material included after references. 18 pages, 11 figures, 10 tables


💡 一句话要点

提出Shape-of-You以解决无标注图像的语义对应问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 语义对应 无监督学习 几何模糊性 Fused Gromov-Wasserstein 3D基础模型 图像处理 计算机视觉

📋 核心要点

  1. 现有的无监督学习方法在处理缺乏明确注释的图像时,局部操作导致结构关系被忽视,造成几何模糊性。
  2. 本文提出将伪标签生成视为Fused Gromov-Wasserstein问题,优化特征相似性和结构一致性,以解决几何模糊性。
  3. Shape-of-You在SPair-71k和AP-10k数据集上取得了最先进的结果,展示了其在无几何注释情况下的有效性。

📝 摘要(中文)

语义对应在处理缺乏明确对应注释的多样化图像时至关重要。尽管近期的2D基础模型提供了强大的特征,但通过最近邻伪标签进行无监督学习存在关键限制:它局部操作,忽视了结构关系,因此依赖于2D外观未能解决由对称性或重复特征引起的几何模糊性。本文通过将伪标签生成重新表述为Fused Gromov-Wasserstein(FGW)问题,解决了这一问题,联合优化特征间相似性和内部结构一致性。我们的框架Shape-of-You(SoY)利用3D基础模型在几何空间中定义内部结构,从而解决上述模糊性。尽管FGW是计算上昂贵的二次问题,我们通过基于锚点的线性化进行了近似。最终的概率传输计划提供了结构一致但噪声较大的监督信号,因此我们引入了一种软目标损失,动态融合来自该计划的指导与网络预测,以构建对噪声鲁棒的学习框架。SoY在SPair-71k和AP-10k数据集上实现了最先进的性能,建立了没有明确几何注释的语义对应的新基准。

🔬 方法详解

问题定义:本文旨在解决在缺乏明确对应注释的多样化图像中进行语义对应的问题。现有方法依赖于2D外观特征,局部操作导致忽视结构关系,无法有效处理几何模糊性。

核心思路:论文提出将伪标签生成重新表述为Fused Gromov-Wasserstein(FGW)问题,通过联合优化特征间相似性和内部结构一致性来解决几何模糊性。利用3D基础模型定义几何空间中的内部结构,从而提高了语义对应的准确性。

技术框架:整体架构包括伪标签生成、FGW优化和软目标损失三个主要模块。首先生成伪标签,然后通过FGW优化特征相似性和结构一致性,最后通过软目标损失融合网络预测与传输计划的指导。

关键创新:最重要的技术创新在于将伪标签生成视为FGW问题,并通过基于锚点的线性化进行近似,从而有效解决了计算复杂度问题,并提供了结构一致但带噪声的监督信号。

关键设计:在损失函数设计上,采用了软目标损失,动态融合来自FGW传输计划的指导与网络预测,以增强模型对噪声的鲁棒性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Shape-of-You在SPair-71k和AP-10k数据集上实现了最先进的性能,具体表现为在SPair-71k上提升了X%(具体数据未知),在AP-10k上提升了Y%(具体数据未知),显著超越了现有基线,展示了其在无几何注释情况下的有效性和鲁棒性。

🎯 应用场景

该研究在计算机视觉领域具有广泛的应用潜力,尤其是在图像检索、图像配对和图像合成等任务中。通过提供一种无监督的语义对应方法,Shape-of-You能够在缺乏几何注释的情况下有效处理多样化图像,推动相关领域的发展。未来,该方法可能会影响到自动驾驶、增强现实等需要高精度图像理解的应用场景。

📄 摘要(原文)

Semantic correspondence is essential for handling diverse in-the-wild images lacking explicit correspondence annotations. While recent 2D foundation models offer powerful features, adapting them for unsupervised learning via nearest-neighbor pseudo-labels has key limitations: it operates locally, ignoring structural relationships, and consequently its reliance on 2D appearance fails to resolve geometric ambiguities arising from symmetries or repetitive features. In this work, we address this by reformulating pseudo-label generation as a Fused Gromov-Wasserstein (FGW) problem, which jointly optimizes inter-feature similarity and intra-structural consistency. Our framework, Shape-of-You (SoY), leverages a 3D foundation model to define this intra-structure in the geometric space, resolving abovementioned ambiguity. However, since FGW is a computationally prohibitive quadratic problem, we approximate it through anchor-based linearization. The resulting probabilistic transport plan provides a structurally consistent but noisy supervisory signal. Thus, we introduce a soft-target loss dynamically blending guidance from this plan with network predictions to build a learning framework robust to this noise. SoY achieves state-of-the-art performance on SPair-71k and AP-10k datasets, establishing a new benchmark in semantic correspondence without explicit geometric annotations. Code is available at Shape-of-You.