SGSoft: Learning Fused Semantic-Geometric Features for 3D Shape Correspondence via Template-Guided Soft Signals

作者: Soyeon Yoon, Chang Wook Seo, Hyunjung Shim

分类: cs.CV

发布日期: 2026-05-18

💡 一句话要点

SGSoft：通过模板引导的软信号学习融合语义-几何特征，实现3D形状对应

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 3D形状对应 深度学习 几何建模 语义分割 形变迁移 测地线距离 模板引导

📋 核心要点

现有3D形状对应方法在泛化性、几何保真度和效率之间存在权衡，难以同时兼顾。
SGSoft利用规范模板上的测地线对应场和预训练语义先验，学习鲁棒的多模态稠密描述符。
SGSoft在跨类别泛化方面达到SOTA，并在精度和效率之间取得了最佳平衡，同时支持下游任务迁移。

📝 摘要（中文）

由于结构可变性、非等距形变和拓扑不一致性，在可变形3D形状之间学习稠密对应关系仍然是一个长期存在的挑战。现有方法通常需要在泛化性、几何保真度和效率之间进行权衡。我们提出SGSoft来解决这个问题，这是一个统一的内在流程，它（i）在规范模板上构建测地线对应场，（ii）利用预训练的语义先验，通过测地线对应场监督学习多模态稠密描述符，（iii）通过描述符空间中的最近邻搜索，在单个前馈过程中检索稠密对应关系。这种公式能够在大的姿势变化、结构差异和重新网格化下实现稳定且拓扑不变的监督。SGSoft实现了最先进的跨类别泛化，同时在现有方法中提供了最佳的精度-效率权衡。它还实现了近乎实时的推理，无需预对齐、成对优化或后细化。学习到的描述符可以有效地转移到下游任务，如语义分割和形变迁移，从而为稠密3D对应建立一个可扩展且可部署的范例。

🔬 方法详解

问题定义：论文旨在解决可变形3D形状之间的稠密对应问题。现有方法面临结构差异大、非等距形变以及拓扑不一致等挑战，导致泛化能力不足，或者需要复杂的预处理和后处理步骤，效率较低。

核心思路：论文的核心思路是利用一个规范模板作为中间表示，在该模板上建立测地线对应关系，并以此作为监督信号，指导学习融合语义和几何信息的稠密描述符。通过在描述符空间中进行最近邻搜索，可以快速找到对应点。

技术框架：SGSoft包含三个主要阶段：（1）在规范模板上构建测地线对应场；（2）利用预训练的语义先验和测地线对应场监督，学习多模态稠密描述符；（3）通过描述符空间中的最近邻搜索，检索稠密对应关系。整个流程是端到端的，无需预对齐或后处理。

关键创新：该方法的主要创新在于使用模板引导的软信号（测地线对应场）来学习融合语义和几何信息的描述符。这种方法能够有效地处理拓扑变化和非等距形变，提高泛化能力。此外，单次前向推理和最近邻搜索的设计提高了效率。

关键设计：论文使用了预训练的语义分割模型来提供语义先验。测地线距离被用作软监督信号，以允许一定程度的形变。损失函数可能包含描述符的对比损失或三元组损失，以鼓励相似形状具有相似的描述符。网络结构可能采用U-Net或类似的架构，以提取多尺度的特征。

🖼️ 关键图片

📊 实验亮点

SGSoft在跨类别泛化方面取得了最先进的结果，同时在精度和效率之间实现了最佳的权衡。与现有方法相比，SGSoft无需预对齐、成对优化或后细化，实现了近乎实时的推理速度。实验结果表明，学习到的描述符可以有效地转移到下游任务，如语义分割和形变迁移。

🎯 应用场景

该研究成果可应用于三维重建、动画制作、虚拟现实、机器人导航等领域。例如，可以用于自动生成3D模型的动画，或者将一个3D模型的形变迁移到另一个模型上。此外，该方法还可以用于机器人抓取，通过建立物体之间的对应关系，实现对不同物体的稳定抓取。

📄 摘要（原文）

Learning dense correspondences across deformable 3D shapes remains a long-standing challenge due to structural variability, non-isometric deformation, and inconsistent topology. Existing methods typically trade off generalization, geometric fidelity, and efficiency. We address this by proposing SGSoft, a unified intrinsic pipeline that (i) constructs a geodesic correspondence field on a canonical template, (ii) learns multimodal dense descriptors guided by pretrained semantic priors with this geodesic correspondence field supervision, (iii) retrieves dense correspondences in a single feed-forward pass via nearest-neighbor search in descriptor space. This formulation enables stable and topology-invariant supervision under large pose variation, structural differences, and remeshing. SGSoft achieves state-of-the-art inter-category generalization while offering the best accuracy-efficiency trade-off among prior methods. It also achieves near real-time inference without pre-alignment, pairwise optimization, or post-refinement. Learned descriptors can be transferred effectively to downstream tasks such as semantic segmentation and deformation transfer, establishing a scalable and deployment-ready paradigm for dense 3D correspondence.

SGSoft: Learning Fused Semantic-Geometric Features for 3D Shape Correspondence via Template-Guided Soft Signals

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理