3DTeethSAM: Taming SAM2 for 3D Teeth Segmentation

📄 arXiv: 2512.11557v1 📥 PDF

作者: Zhiguo Lu, Jianwen Lou, Mingjun Ma, Hairong Jin, Youyi Zheng, Kun Zhou

分类: cs.CV

发布日期: 2025-12-12

备注: Accepted by AAAI 2026


💡 一句话要点

3DTeethSAM:利用SAM2进行三维牙齿分割,实现牙科数字化

🎯 匹配领域: 支柱三:空间感知 (Perception & SLAM)

关键词: 三维牙齿分割 SAM2 数字化牙科 可变形注意力 图像渲染

📋 核心要点

  1. 三维牙齿分割在数字化牙科中至关重要,但由于牙齿结构的复杂性,现有方法难以达到理想的分割精度和效率。
  2. 3DTeethSAM通过渲染3D牙齿模型图像,利用SAM2进行2D分割,再投影回3D空间,并引入轻量级模块优化分割结果。
  3. 实验表明,该方法在3DTeethSeg基准测试中取得了91.90%的IoU,显著提升了三维牙齿分割的性能,达到新的SOTA。

📝 摘要(中文)

本文提出3DTeethSAM,一种用于三维牙齿分割的Segment Anything Model 2 (SAM2)的改进方法。三维牙齿分割,包括在三维牙科模型中定位牙齿实例及其语义分类,是数字化牙科中一项关键但具有挑战性的任务,因为现实世界中的牙列非常复杂。SAM2是一个用于图像和视频分割的预训练基础模型,在各种下游场景中表现出强大的骨干能力。为了使SAM2适应三维牙齿数据,我们从预定义的视图渲染三维牙齿模型的图像,应用SAM2进行二维分割,并使用二维-三维投影重建三维结果。由于SAM2的性能取决于输入提示,并且其初始输出通常存在缺陷,并且考虑到其类别无关的性质,我们引入了三个轻量级的可学习模块:(1)一个提示嵌入生成器,用于从图像嵌入中导出提示嵌入,以进行精确的掩码解码,(2)一个掩码细化器,用于增强SAM2的初始分割结果,以及(3)一个掩码分类器,用于对生成的掩码进行分类。此外,我们将可变形全局注意力插件(DGAP)集成到SAM2的图像编码器中。DGAP提高了分割精度和训练速度。我们的方法已在3DTeethSeg基准上得到验证,在高分辨率三维牙齿网格上实现了91.90%的IoU,在该领域建立了新的最先进水平。

🔬 方法详解

问题定义:论文旨在解决三维牙齿分割问题,即在三维牙科模型中准确地定位和分割出每个牙齿实例,并进行语义分类。现有方法在处理复杂牙齿结构时,分割精度和效率较低,难以满足实际应用需求。

核心思路:论文的核心思路是利用预训练的SAM2模型强大的分割能力,并针对三维牙齿数据的特点进行适配和优化。通过将三维数据渲染成二维图像,利用SAM2进行分割,再将分割结果投影回三维空间,从而实现三维牙齿分割。

技术框架:3DTeethSAM的整体框架包括以下几个主要模块:1) 3D牙齿模型渲染模块:将三维牙齿模型从预定义视角渲染成二维图像;2) SAM2分割模块:利用SAM2对二维图像进行分割,生成初始的分割掩码;3) 提示嵌入生成器:从图像嵌入中生成提示嵌入,用于更精确的掩码解码;4) 掩码细化器:对SAM2的初始分割结果进行细化,提高分割精度;5) 掩码分类器:对生成的掩码进行分类,确定每个掩码对应的牙齿类别;6) 可变形全局注意力插件(DGAP):集成到SAM2的图像编码器中,提高分割精度和训练速度。

关键创新:论文的关键创新在于将SAM2应用于三维牙齿分割,并针对该任务的特点,设计了轻量级的可学习模块,包括提示嵌入生成器、掩码细化器和掩码分类器。此外,DGAP的引入进一步提高了分割精度和训练速度。

关键设计:提示嵌入生成器用于从图像嵌入中导出提示嵌入,以指导SAM2进行更精确的掩码解码。掩码细化器采用轻量级的卷积神经网络,对SAM2的初始分割结果进行细化,去除噪声和不准确的分割区域。掩码分类器用于对生成的掩码进行分类,确定每个掩码对应的牙齿类别。DGAP通过可变形卷积,能够更好地捕捉全局上下文信息,提高分割精度。

📊 实验亮点

实验结果表明,3DTeethSAM在3DTeethSeg基准测试中取得了91.90%的IoU,显著优于现有方法,建立了新的state-of-the-art。DGAP的引入进一步提高了分割精度和训练速度。这些结果表明,3DTeethSAM是一种有效的三维牙齿分割方法,具有很高的应用价值。

🎯 应用场景

该研究成果可广泛应用于数字化牙科领域,例如辅助牙齿矫正、种植牙手术规划、牙齿疾病诊断等。通过精确的三维牙齿分割,医生可以更准确地评估患者的牙齿状况,制定更有效的治疗方案,提高治疗效果。此外,该技术还可以应用于牙科教育和科研领域,例如用于构建虚拟牙齿模型、进行牙齿形态分析等。

📄 摘要(原文)

3D teeth segmentation, involving the localization of tooth instances and their semantic categorization in 3D dental models, is a critical yet challenging task in digital dentistry due to the complexity of real-world dentition. In this paper, we propose 3DTeethSAM, an adaptation of the Segment Anything Model 2 (SAM2) for 3D teeth segmentation. SAM2 is a pretrained foundation model for image and video segmentation, demonstrating a strong backbone in various downstream scenarios. To adapt SAM2 for 3D teeth data, we render images of 3D teeth models from predefined views, apply SAM2 for 2D segmentation, and reconstruct 3D results using 2D-3D projections. Since SAM2's performance depends on input prompts and its initial outputs often have deficiencies, and given its class-agnostic nature, we introduce three light-weight learnable modules: (1) a prompt embedding generator to derive prompt embeddings from image embeddings for accurate mask decoding, (2) a mask refiner to enhance SAM2's initial segmentation results, and (3) a mask classifier to categorize the generated masks. Additionally, we incorporate Deformable Global Attention Plugins (DGAP) into SAM2's image encoder. The DGAP enhances both the segmentation accuracy and the speed of the training process. Our method has been validated on the 3DTeethSeg benchmark, achieving an IoU of 91.90% on high-resolution 3D teeth meshes, establishing a new state-of-the-art in the field.