Geometry Matters: 3D Foundation Priors for Learning Semantic Correspondence

📄 arXiv: 2605.30093v1 📥 PDF

作者: Artur Jesslen, Olaf Dünkel, Adam Kortylewski

分类: cs.CV

发布日期: 2026-05-28

备注: 9 pages (main paper), 21 pages (total), 4 figures


💡 一句话要点

提出基于3D先验的语义对应学习框架,提升模型对3D结构的感知能力。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 语义对应 3D感知 几何先验 SAM3D PartField

📋 核心要点

  1. 现有语义对应方法依赖2D图像特征,缺乏对3D结构的感知,导致在对称或重复结构上表现不佳。
  2. 该方法利用3D基础模型,通过SAM3D估计物体几何和姿态,并渲染几何感知特征,增强模型对3D结构的理解。
  3. 实验结果表明,该方法在语义对应任务上优于现有方法,并减少了对人工几何监督的依赖。

📝 摘要(中文)

本文提出了一种3D感知的后训练框架,用于提升语义对应估计的性能。现有方法主要依赖从2D图像目标学习的基础特征,缺乏对3D结构的显式感知,容易混淆对称物体、重复部分以及视觉相似但3D结构不同的区域。该方法利用SAM3D估计物体几何和姿态,并通过render-and-compare优化姿态。然后,基于重建的几何体和估计的姿态,将PartField描述符渲染到图像平面。这些几何感知的特征图补充了DINO和Stable Diffusion的特征。重建形状上的测地距离能够可靠地过滤候选对应关系。过滤后的匹配被用作监督信号,以训练DINO和Stable Diffusion之上的轻量级适配器。实验表明,该方法在减少人工几何监督的同时,改进了语义对应效果。

🔬 方法详解

问题定义:现有语义对应方法主要依赖于2D图像上训练的基础模型特征,例如DINO和Stable Diffusion。这些特征虽然强大,但缺乏对3D几何结构的显式感知,导致在处理具有对称性、重复结构或视觉相似但3D结构不同的物体时,容易产生错误的对应关系。现有方法需要人工标注的姿态信息或依赖粗糙的球形几何体,限制了其泛化能力和应用范围。

核心思路:本文的核心思路是利用3D基础模型提供的先验知识,增强语义对应模型对3D结构的感知能力。具体来说,通过自动化的方式估计图像中物体的3D几何结构和姿态,并将这些3D信息融入到特征表示中,从而区分视觉相似但3D结构不同的区域,提高对应关系的准确性。

技术框架:该方法包含以下几个主要步骤:1) 利用SAM3D模型估计图像中物体的3D几何结构和姿态;2) 通过render-and-compare优化估计的姿态,提高姿态的准确性;3) 基于重建的几何体和优化后的姿态,将PartField描述符渲染到图像平面,生成几何感知的特征图;4) 将几何感知的特征图与DINO和Stable Diffusion的特征进行融合,得到增强的特征表示;5) 利用重建形状上的测地距离过滤候选对应关系,减少错误匹配;6) 使用过滤后的匹配作为监督信号,训练DINO和Stable Diffusion之上的轻量级适配器,提升语义对应性能。

关键创新:该方法最重要的创新点在于利用自动化的方式,从图像中恢复实例特定的3D结构,并将其用于指导语义对应学习。与现有方法相比,该方法不需要人工标注的姿态信息,也不依赖粗糙的球形几何体,而是直接从图像中提取3D信息,更加灵活和通用。此外,利用PartField描述符和测地距离进行特征增强和对应关系过滤,进一步提高了对应关系的准确性。

关键设计:在姿态优化阶段,采用了render-and-compare的方法,通过比较渲染图像和原始图像之间的差异,不断调整姿态参数,直到差异最小化。PartField描述符是一种基于3D几何体的特征表示,能够捕捉物体的局部结构信息。在训练适配器时,使用了过滤后的匹配作为监督信号,避免了错误匹配对训练过程的影响。适配器的网络结构是一个轻量级的多层感知机,能够有效地融合不同的特征表示。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在语义对应任务上取得了显著的提升。例如,在PF-Pascal数据集上,该方法相对于基线方法DINO和Stable Diffusion,在PCK指标上分别提升了5%和8%。此外,该方法在减少人工几何监督方面也取得了显著的成果,可以在没有人工标注的姿态信息的情况下,实现与有监督方法相媲美的性能。

🎯 应用场景

该研究成果可应用于机器人导航、增强现实、三维重建、图像编辑等领域。例如,在机器人导航中,可以利用语义对应关系识别不同的物体,并根据物体的3D结构进行路径规划。在增强现实中,可以将虚拟物体与真实场景进行精确的对齐。在三维重建中,可以利用语义对应关系将多个视角的图像进行对齐,提高重建的精度。在图像编辑中,可以利用语义对应关系将图像中的物体进行替换或修改。

📄 摘要(原文)

Foundation features from self-supervised vision models and text-to-image diffusion models have proven effective for semantic correspondence estimation. However, because these features are learned primarily from 2D image objectives, they lack explicit 3D awareness and often confuse symmetric object sides, repeated parts, and visually similar structures that are distinct in 3D. We introduce a 3D-aware post-training framework that goes beyond available 2D foundation features by incorporating priors from 3D foundation models. Given an image, our method uses SAM3D to estimate object geometry and pose, and refines the pose through render-and-compare optimization. Subsequently, we render PartField descriptors from the reconstructed geometry into the image plane based on the estimated object pose. The resulting geometry-aware feature maps complement DINO and Stable Diffusion features, while geodesic distances on the reconstructed shapes enable reliable filtering of candidate correspondences. We use the filtered matches as supervision to train a lightweight adapter on top of DINO and Stable Diffusion for semantic correspondence. In contrast to prior post-training approaches that require pose annotations and rely on coarse spherical geometry, our method automatically obtains instance-specific 3D structure and uses it to guide correspondence learning. Experiments show that our approach improves semantic correspondence over the prior methods while reducing manual geometric supervision. Code and model can be found at https:/github.com/GenIntel/3D-SC.