Geometric-Guided Few-Shot Dental Landmark Detection with Human-Centric Foundation Model

作者: Anbang Wang, Marawan Elbatel, Keyuan Liu, Lizhuo Lin, Meng Lan, Yanqi Yang, Xiaomeng Li

分类: cs.CV, cs.AI, cs.LG

发布日期: 2025-07-07

备注: MICCAI 2025

🔗 代码/项目: GITHUB

💡 一句话要点

GeoSapiens：结合几何约束与人本基础模型的少样本牙科地标检测

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 牙科地标检测 少样本学习 几何约束 人本基础模型 CBCT图像 深度学习 Sapiens

📋 核心要点

牙科地标手动标注耗时费力，且主观性强，深度学习方法受限于标注数据稀缺。
GeoSapiens框架利用人本基础模型Sapiens，并引入几何损失函数，提升模型对几何关系的建模能力。
实验表明，GeoSapiens在牙科地标检测任务上超越现有方法，在0.5mm阈值下成功率提升8.18%。

📝 摘要（中文）

精确检测牙齿解剖地标对于评估牙槽骨和牙根状况至关重要，从而优化正畸、牙周病和种植牙的临床效果。牙医在锥形束计算机断层扫描（CBCT）上手动标注地标既耗时又费力，且存在观察者间差异。基于深度学习的自动化方法为高效简化这一过程提供了一种有前景的途径。然而，训练数据的稀缺和专家标注的高成本阻碍了传统深度学习技术的应用。为了克服这些挑战，我们引入了GeoSapiens，这是一种新颖的少样本学习框架，旨在利用有限的带注释的前牙CBCT进行稳健的牙科地标检测。我们的GeoSapiens框架包含两个关键组件：（1）一个基于Sapiens的强大基线模型，Sapiens是一个在以人为中心的视觉任务中取得了最先进性能的基础模型，以及（2）一种新颖的几何损失函数，提高了模型捕获解剖结构之间关键几何关系的能力。在我们收集的前牙地标数据集上进行的实验表明，GeoSapiens超越了现有的地标检测方法，在严格的0.5毫米阈值下，成功检测率比领先方法高出8.18％，该阈值是牙科诊断中广泛认可的标准。

🔬 方法详解

问题定义：论文旨在解决牙科CBCT图像中牙齿地标的自动检测问题。现有方法依赖大量标注数据，但在牙科领域，专家标注成本高昂，数据稀缺，导致传统深度学习方法难以应用。现有方法难以有效利用牙齿的几何结构信息，导致检测精度受限。

核心思路：论文的核心思路是利用少样本学习，结合人本基础模型和几何约束，提升模型在少量标注数据下的泛化能力和检测精度。通过引入几何损失函数，引导模型学习牙齿解剖结构的几何关系，从而提高地标检测的准确性和鲁棒性。

技术框架：GeoSapiens框架主要包含两个核心模块：1) 基于Sapiens的基线模型：利用预训练的人本基础模型Sapiens作为特征提取器，该模型在人脸等视觉任务上表现出色，具有较强的泛化能力。2) 几何损失函数：设计一种新的几何损失函数，用于约束模型学习牙齿解剖结构之间的几何关系。该损失函数鼓励模型预测的地标点符合预期的几何结构，从而提高检测精度。整体流程是：输入CBCT图像，通过Sapiens提取特征，然后利用少量标注数据进行微调，并结合几何损失函数进行训练，最终输出地标点的坐标。

关键创新：论文的关键创新在于将人本基础模型与几何约束相结合，用于解决牙科少样本地标检测问题。与现有方法相比，GeoSapiens无需大量标注数据即可达到较高的检测精度，并且能够有效利用牙齿的几何结构信息，提高检测的鲁棒性。几何损失函数的设计是另一个创新点，它能够显式地引导模型学习牙齿解剖结构的几何关系。

关键设计：几何损失函数的设计是关键。具体来说，该损失函数可能包含以下几个方面：1) 地标点之间的距离约束：鼓励模型预测的地标点之间的距离符合预期的范围。2) 地标点之间的角度约束：鼓励模型预测的地标点之间的角度符合预期的范围。3) 地标点与牙齿轮廓的相对位置约束：鼓励模型预测的地标点位于牙齿轮廓的特定位置。Sapiens模型的选择和微调策略也很重要，需要根据牙科CBCT图像的特点进行调整。损失函数的权重需要仔细调整，以平衡不同约束之间的影响。

🖼️ 关键图片

📊 实验亮点

实验结果表明，GeoSapiens在收集的前牙地标数据集上超越了现有的地标检测方法，在严格的0.5毫米阈值下，成功检测率比领先方法高出8.18％。这一结果表明，GeoSapiens在少样本牙科地标检测任务上具有显著的优势，能够满足临床应用的精度要求。

🎯 应用场景

GeoSapiens可应用于正畸、牙周病和种植牙等多个牙科领域，辅助医生进行诊断和治疗计划制定。通过自动检测牙齿地标，可以更准确地评估牙槽骨和牙根状况，优化临床治疗效果。该技术还可以减少手动标注的工作量，提高诊断效率，并降低人为误差，具有重要的临床应用价值和潜力。

📄 摘要（原文）

Accurate detection of anatomic landmarks is essential for assessing alveolar bone and root conditions, thereby optimizing clinical outcomes in orthodontics, periodontics, and implant dentistry. Manual annotation of landmarks on cone-beam computed tomography (CBCT) by dentists is time-consuming, labor-intensive, and subject to inter-observer variability. Deep learning-based automated methods present a promising approach to streamline this process efficiently. However, the scarcity of training data and the high cost of expert annotations hinder the adoption of conventional deep learning techniques. To overcome these challenges, we introduce GeoSapiens, a novel few-shot learning framework designed for robust dental landmark detection using limited annotated CBCT of anterior teeth. Our GeoSapiens framework comprises two key components: (1) a robust baseline adapted from Sapiens, a foundational model that has achieved state-of-the-art performance in human-centric vision tasks, and (2) a novel geometric loss function that improves the model's capacity to capture critical geometric relationships among anatomical structures. Experiments conducted on our collected dataset of anterior teeth landmarks revealed that GeoSapiens surpassed existing landmark detection methods, outperforming the leading approach by an 8.18% higher success detection rate at a strict 0.5 mm threshold-a standard widely recognized in dental diagnostics. Code is available at: https://github.com/xmed-lab/GeoSapiens.

Geometric-Guided Few-Shot Dental Landmark Detection with Human-Centric Foundation Model

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理