SGSoft: Learning Fused Semantic-Geometric Features for 3D Shape Correspondence via Template-Guided Soft Signals

📄 arXiv: 2605.18039v1 📥 PDF

作者: Soyeon Yoon, Chang Wook Seo, Hyunjung Shim

分类: cs.CV

发布日期: 2026-05-18


💡 一句话要点

SGSoft:通过模板引导的软信号学习融合语义-几何特征,实现3D形状对应

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 3D形状对应 深度学习 几何建模 语义分割 形变迁移 测地线距离 模板引导

📋 核心要点

  1. 现有3D形状对应方法在泛化性、几何保真度和效率之间存在权衡,难以同时兼顾。
  2. SGSoft利用规范模板上的测地线对应场和预训练语义先验,学习鲁棒的多模态稠密描述符。
  3. SGSoft在跨类别泛化方面达到SOTA,并在精度和效率之间取得了最佳平衡,同时支持下游任务迁移。

📝 摘要(中文)

由于结构可变性、非等距形变和拓扑不一致性,在可变形3D形状之间学习稠密对应关系仍然是一个长期存在的挑战。现有方法通常需要在泛化性、几何保真度和效率之间进行权衡。我们提出SGSoft来解决这个问题,这是一个统一的内在流程,它(i)在规范模板上构建测地线对应场,(ii)利用预训练的语义先验,通过测地线对应场监督学习多模态稠密描述符,(iii)通过描述符空间中的最近邻搜索,在单个前馈过程中检索稠密对应关系。这种公式能够在大的姿势变化、结构差异和重新网格化下实现稳定且拓扑不变的监督。SGSoft实现了最先进的跨类别泛化,同时在现有方法中提供了最佳的精度-效率权衡。它还实现了近乎实时的推理,无需预对齐、成对优化或后细化。学习到的描述符可以有效地转移到下游任务,如语义分割和形变迁移,从而为稠密3D对应建立一个可扩展且可部署的范例。

🔬 方法详解

问题定义:论文旨在解决可变形3D形状之间的稠密对应问题。现有方法面临结构差异大、非等距形变以及拓扑不一致等挑战,导致泛化能力不足,或者需要复杂的预处理和后处理步骤,效率较低。

核心思路:论文的核心思路是利用一个规范模板作为中间表示,在该模板上建立测地线对应关系,并以此作为监督信号,指导学习融合语义和几何信息的稠密描述符。通过在描述符空间中进行最近邻搜索,可以快速找到对应点。

技术框架:SGSoft包含三个主要阶段:(1)在规范模板上构建测地线对应场;(2)利用预训练的语义先验和测地线对应场监督,学习多模态稠密描述符;(3)通过描述符空间中的最近邻搜索,检索稠密对应关系。整个流程是端到端的,无需预对齐或后处理。

关键创新:该方法的主要创新在于使用模板引导的软信号(测地线对应场)来学习融合语义和几何信息的描述符。这种方法能够有效地处理拓扑变化和非等距形变,提高泛化能力。此外,单次前向推理和最近邻搜索的设计提高了效率。

关键设计:论文使用了预训练的语义分割模型来提供语义先验。测地线距离被用作软监督信号,以允许一定程度的形变。损失函数可能包含描述符的对比损失或三元组损失,以鼓励相似形状具有相似的描述符。网络结构可能采用U-Net或类似的架构,以提取多尺度的特征。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SGSoft在跨类别泛化方面取得了最先进的结果,同时在精度和效率之间实现了最佳的权衡。与现有方法相比,SGSoft无需预对齐、成对优化或后细化,实现了近乎实时的推理速度。实验结果表明,学习到的描述符可以有效地转移到下游任务,如语义分割和形变迁移。

🎯 应用场景

该研究成果可应用于三维重建、动画制作、虚拟现实、机器人导航等领域。例如,可以用于自动生成3D模型的动画,或者将一个3D模型的形变迁移到另一个模型上。此外,该方法还可以用于机器人抓取,通过建立物体之间的对应关系,实现对不同物体的稳定抓取。

📄 摘要(原文)

Learning dense correspondences across deformable 3D shapes remains a long-standing challenge due to structural variability, non-isometric deformation, and inconsistent topology. Existing methods typically trade off generalization, geometric fidelity, and efficiency. We address this by proposing SGSoft, a unified intrinsic pipeline that (i) constructs a geodesic correspondence field on a canonical template, (ii) learns multimodal dense descriptors guided by pretrained semantic priors with this geodesic correspondence field supervision, (iii) retrieves dense correspondences in a single feed-forward pass via nearest-neighbor search in descriptor space. This formulation enables stable and topology-invariant supervision under large pose variation, structural differences, and remeshing. SGSoft achieves state-of-the-art inter-category generalization while offering the best accuracy-efficiency trade-off among prior methods. It also achieves near real-time inference without pre-alignment, pairwise optimization, or post-refinement. Learned descriptors can be transferred effectively to downstream tasks such as semantic segmentation and deformation transfer, establishing a scalable and deployment-ready paradigm for dense 3D correspondence.