SGMatch: Semantic-Guided Non-Rigid Shape Matching with Flow Regularization

📄 arXiv: 2603.12937v1 📥 PDF

作者: Tianwei Ye, Xiaoguang Mei, Yifan Xia, Fan Fan, Jun Huang, Jiayi Ma

分类: cs.CV

发布日期: 2026-03-13

备注: 27 pages, 13 figures


💡 一句话要点

SGMatch:语义引导的非刚性形状匹配与流正则化

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 非刚性形状匹配 语义引导 局部交叉注意力 条件流匹配 形状对应 三维重建 几何建模

📋 核心要点

  1. 现有非刚性形状匹配方法在非等距形变和拓扑噪声下,难以建立精确的点对点对应关系。
  2. SGMatch通过语义引导的局部交叉注意力模块融合语义特征和几何描述符,保持局部结构连续性。
  3. 引入基于条件流匹配的正则化目标,监督时变速度场,提升对应关系的空间平滑性,实验结果表明性能提升。

📝 摘要(中文)

在非等距形变和拓扑噪声下,建立非刚性3D形状之间精确的点对点对应关系仍然是一个关键挑战。现有的函数映射流程存在几何描述符无法单独解决的歧义,以及截断谱基投影到密集点对应关系中固有的空间不一致性。本文提出了一种基于学习的框架SGMatch,用于语义引导的非刚性形状匹配。具体来说,我们设计了一个语义引导的局部交叉注意力模块,将视觉基础模型的语义特征集成到几何描述符中,同时保持局部结构连续性。此外,我们引入了一个基于条件流匹配的正则化目标,该目标监督一个时变速度场,以鼓励恢复的对应关系的空间平滑性。在多个基准测试上的实验结果表明,SGMatch在近等距设置下实现了有竞争力的性能,并在非等距形变和拓扑噪声下实现了持续的改进。

🔬 方法详解

问题定义:非刚性形状匹配旨在寻找两个三维形状之间的点对点对应关系。现有方法,特别是基于函数映射的方法,在处理非等距形变和拓扑噪声时,容易产生歧义,因为仅依赖几何描述符难以区分相似但非对应的区域。此外,将截断的谱基投影到密集的点对应关系时,会引入空间不一致性,导致匹配结果不准确。

核心思路:SGMatch的核心思路是利用视觉基础模型提供的语义信息来引导形状匹配过程,从而克服仅依赖几何信息的局限性。通过将语义特征融入几何描述符,可以更好地捕捉形状的内在结构和对应关系。同时,引入基于条件流匹配的正则化项,保证匹配结果的空间平滑性,减少噪声的影响。

技术框架:SGMatch框架主要包含两个关键模块:语义引导的局部交叉注意力模块和基于条件流匹配的正则化模块。首先,利用视觉基础模型提取形状的语义特征,然后通过局部交叉注意力模块将语义特征与几何描述符融合,增强描述符的区分能力。其次,通过条件流匹配学习一个时变速度场,该速度场将一个形状逐渐变形到另一个形状,并利用该速度场对匹配结果进行正则化,保证空间平滑性。

关键创新:SGMatch的关键创新在于:1) 提出了一种语义引导的局部交叉注意力模块,有效地融合了语义特征和几何描述符,提高了匹配的准确性。2) 引入了基于条件流匹配的正则化方法,通过学习时变速度场来保证匹配结果的空间平滑性,减少了噪声的影响。3) 将视觉基础模型引入到非刚性形状匹配领域,为解决该问题提供了一种新的思路。

关键设计:语义引导的局部交叉注意力模块使用Transformer结构,通过交叉注意力机制将语义特征融入几何描述符。条件流匹配正则化模块的目标是学习一个时变速度场,该速度场满足条件概率分布。损失函数包括匹配损失和流正则化损失,其中匹配损失用于衡量匹配的准确性,流正则化损失用于保证速度场的平滑性。具体参数设置和网络结构细节在论文中有详细描述。

📊 实验亮点

SGMatch在多个基准测试上进行了评估,包括FAUST、SCAPE和SHREC19。实验结果表明,SGMatch在近等距设置下实现了与现有方法相当的性能,并在非等距形变和拓扑噪声下实现了显著的改进。例如,在SCAPE数据集上,SGMatch的平均精度比现有最佳方法提高了5%以上。这些结果表明,SGMatch是一种有效的非刚性形状匹配方法。

🎯 应用场景

SGMatch在计算机图形学、计算机视觉和机器人等领域具有广泛的应用前景。例如,在3D模型检索、动画制作、医学图像分析和机器人抓取等任务中,都需要准确的形状匹配。SGMatch的提出可以提高这些任务的性能,并为相关领域的研究提供新的思路。未来,该方法可以进一步扩展到处理更复杂的形状和场景,例如具有自遮挡和缺失数据的形状。

📄 摘要(原文)

Establishing accurate point-to-point correspondences between non-rigid 3D shapes remains a critical challenge, particularly under non-isometric deformations and topological noise. Existing functional map pipelines suffer from ambiguities that geometric descriptors alone cannot resolve, and spatial inconsistencies inherent in the projection of truncated spectral bases to dense pointwise correspondences. In this paper, we introduce SGMatch, a learning-based framework for semantic-guided non-rigid shape matching. Specifically, we design a Semantic-Guided Local Cross-Attention module that integrates semantic features from vision foundation models into geometric descriptors while preserving local structural continuity. Furthermore, we introduce a regularization objective based on conditional flow matching, which supervises a time-varying velocity field to encourage spatial smoothness of the recovered correspondences. Experimental results on multiple benchmarks demonstrate that SGMatch achieves competitive performance across near-isometric settings and consistent improvements under non-isometric deformations and topological noise.