Weakly-Supervised Learning of Dense Functional Correspondences

📄 arXiv: 2509.03893v1 📥 PDF

作者: Stefan Stojanov, Linan Zhao, Yunzhi Zhang, Daniel L. K. Yamins, Jiajun Wu

分类: cs.CV

发布日期: 2025-09-04

备注: Accepted at ICCV 2025. Project website: https://dense-functional-correspondence.github.io/


💡 一句话要点

提出一种弱监督学习方法,用于学习密集的函数对应关系,提升跨类别图像匹配性能。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 密集对应 弱监督学习 视觉-语言模型 函数相似性 跨类别匹配

📋 核心要点

  1. 现有方法在跨类别图像匹配中难以建立准确的密集对应关系,尤其缺乏对对象功能信息的有效利用。
  2. 利用视觉-语言模型生成伪标签,结合密集对比学习,将功能和空间知识融入模型,实现函数对应关系的预测。
  3. 通过合成和真实数据集的实验,验证了该方法在建立密集函数对应关系方面的优势,超越了现有基线方法。

📝 摘要(中文)

建立图像对之间的密集对应关系对于形状重建和机器人操作等任务至关重要。在跨不同类别进行匹配的挑战性环境中,对象的功能(即对象可以对其他对象产生的影响)可以指导如何建立对应关系。这是因为实现特定功能的对象部分通常在形状和外观上具有相似性。基于此,我们推导了密集函数对应关系的定义,并提出了一种弱监督学习范式来解决预测任务。我们方法背后的主要思想是,我们可以利用视觉-语言模型来伪标记多视角图像以获得功能部件。然后,我们将其与像素对应关系的密集对比学习相结合,将功能和空间知识提炼到一个新的模型中,该模型可以建立密集的函数对应关系。此外,我们策划了合成和真实评估数据集作为任务基准。我们的结果表明,我们的方法优于由现成的自监督图像表示和接地的视觉语言模型组成的基线解决方案。

🔬 方法详解

问题定义:论文旨在解决跨类别图像对之间建立密集函数对应关系的问题。现有方法,如基于外观或形状相似性的方法,在类别差异较大时表现不佳,忽略了对象的功能信息。因此,如何有效地利用对象的功能信息来指导对应关系的建立是关键挑战。

核心思路:论文的核心思路是利用对象的功能相似性来指导密集对应关系的建立。具有相似功能的物体部件通常具有相似的形状和外观。通过学习这种功能相似性,可以更准确地建立跨类别图像之间的对应关系。论文利用视觉-语言模型来提取对象的功能信息,并将其融入到对应关系的学习过程中。

技术框架:整体框架包含以下几个主要阶段:1) 利用视觉-语言模型对多视角图像进行伪标记,得到功能部件的分割结果。2) 使用密集对比学习,从像素对应关系中学习空间信息。3) 将功能部件的分割结果和空间信息融合,训练一个可以预测密集函数对应关系的模型。该模型以图像对作为输入,输出像素级别的对应关系。

关键创新:论文的关键创新在于提出了一种弱监督学习范式,利用视觉-语言模型生成伪标签,从而无需人工标注即可获得功能部件的信息。这种方法有效地利用了视觉-语言模型的知识,并将其迁移到密集对应关系的学习中。此外,论文还提出了基于功能相似性的密集对应关系定义,为该领域的研究提供了新的视角。

关键设计:论文使用CLIP等视觉-语言模型生成伪标签。密集对比学习采用InfoNCE损失函数。模型结构未知,但需要能够处理图像对并输出像素级别的对应关系。数据集包括合成和真实数据,用于训练和评估模型。

📊 实验亮点

实验结果表明,该方法在合成和真实数据集上均优于现有的自监督图像表示和基于视觉-语言模型的基线方法。具体性能提升数据未知,但论文强调了其方法在跨类别匹配方面的优势。通过可视化结果,展示了该方法能够更准确地建立具有相似功能的部件之间的对应关系。

🎯 应用场景

该研究成果可应用于机器人操作、三维重建、图像编辑等领域。例如,在机器人操作中,可以利用函数对应关系将一个对象的操作知识迁移到另一个具有相似功能的对象上。在三维重建中,可以利用函数对应关系对不同视角的图像进行对齐。在图像编辑中,可以利用函数对应关系将一个对象的部件替换为另一个对象的部件。

📄 摘要(原文)

Establishing dense correspondences across image pairs is essential for tasks such as shape reconstruction and robot manipulation. In the challenging setting of matching across different categories, the function of an object, i.e., the effect that an object can cause on other objects, can guide how correspondences should be established. This is because object parts that enable specific functions often share similarities in shape and appearance. We derive the definition of dense functional correspondence based on this observation and propose a weakly-supervised learning paradigm to tackle the prediction task. The main insight behind our approach is that we can leverage vision-language models to pseudo-label multi-view images to obtain functional parts. We then integrate this with dense contrastive learning from pixel correspondences to distill both functional and spatial knowledge into a new model that can establish dense functional correspondence. Further, we curate synthetic and real evaluation datasets as task benchmarks. Our results demonstrate the advantages of our approach over baseline solutions consisting of off-the-shelf self-supervised image representations and grounded vision language models.