TSegAgent: Zero-Shot Tooth Segmentation via Geometry-Aware Vision-Language Agents

📄 arXiv: 2603.19684v1 📥 PDF

作者: Shaojie Zhuang, Lu Yin, Guangshun Wei, Yunpeng Li, Xilu Wang, Yuanfeng Zhou

分类: cs.CV

发布日期: 2026-03-20

备注: MICCAI 2026; Under review


💡 一句话要点

TSegAgent:基于几何感知视觉-语言Agent的零样本牙齿分割

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 牙齿分割 零样本学习 几何推理 视觉-语言模型 数字化牙科

📋 核心要点

  1. 现有牙齿分割方法依赖大量标注的3D数据训练特定模型,成本高且泛化性差,难以适应不同来源的扫描数据。
  2. TSegAgent将牙齿分割问题转化为零样本几何推理,利用通用模型和牙齿解剖结构的几何先验知识进行推理。
  3. 实验表明,TSegAgent在低计算和标注成本下实现了准确的牙齿分割和识别,并在未见过的牙科扫描中表现出良好的泛化能力。

📝 摘要(中文)

本文提出TSegAgent,旨在解决口腔扫描3D模型中牙齿自动分割和识别的问题。现有方法依赖于特定任务的3D神经网络,需要大量标注数据,泛化能力有限。TSegAgent将牙齿分析重新定义为零样本几何推理问题,而非纯粹的数据驱动识别任务。该方法结合了通用基础模型的表征能力和源于牙齿解剖结构的显式几何归纳偏置。通过多视角视觉抽象和基于几何的推理,无需特定任务训练即可推断牙齿实例和身份。通过显式编码牙弓组织和体积关系等结构约束,减少了模糊情况下的不确定性,并减轻了对特定形状分布的过拟合。实验结果表明,这种面向推理的方法能够以低计算和标注成本实现准确可靠的牙齿分割和识别,并在各种先前未见过的牙科扫描中表现出强大的泛化能力。

🔬 方法详解

问题定义:现有牙齿分割方法依赖于大量标注数据训练的特定任务3D神经网络,标注成本高昂,且模型泛化能力有限,难以适应来自不同来源的牙科扫描数据。这些方法通常难以有效利用牙齿的几何结构信息,容易过拟合特定数据集的形状分布。

核心思路:TSegAgent的核心思路是将牙齿分割问题重新定义为一个零样本的几何推理问题,而非一个纯粹的数据驱动的识别任务。通过结合通用基础模型的表征能力和从牙齿解剖结构中获得的显式几何归纳偏置,模型能够在没有特定任务训练的情况下推断牙齿实例和身份。

技术框架:TSegAgent框架主要包含以下几个阶段:首先,从多个视角对3D牙科模型进行渲染,生成多视角图像。然后,利用视觉-语言模型提取多视角图像的视觉特征。接着,利用几何推理模块,结合牙弓组织和体积关系等结构约束,对牙齿实例进行分割和识别。最后,通过优化算法,对分割结果进行精细调整。

关键创新:TSegAgent的关键创新在于其零样本的几何推理方法。与传统方法依赖大量标注数据进行训练不同,TSegAgent利用通用基础模型的表征能力和牙齿解剖结构的几何先验知识,实现了在没有特定任务训练的情况下进行牙齿分割和识别。这种方法大大降低了标注成本,并提高了模型的泛化能力。

关键设计:TSegAgent的关键设计包括:1) 多视角视觉抽象,通过从不同视角观察牙齿,获取更全面的信息;2) 几何推理模块,显式编码牙弓组织和体积关系等结构约束,减少模糊情况下的不确定性;3) 利用视觉-语言模型提取图像特征,充分利用预训练模型的强大表征能力;4) 使用优化算法对分割结果进行精细调整,提高分割精度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

TSegAgent在零样本牙齿分割任务中表现出色,无需任何特定任务的训练数据。该方法通过结合视觉-语言模型和几何推理,实现了对各种牙科扫描的准确分割和识别,并在未见过的牙科扫描中表现出强大的泛化能力。实验结果表明,TSegAgent在分割精度和效率方面均优于现有方法。

🎯 应用场景

TSegAgent在数字化牙科领域具有广泛的应用前景,例如辅助牙科诊断、正畸治疗规划、种植牙设计等。该方法能够降低牙齿分割和识别的成本,提高效率,并为牙科医生提供更准确的辅助决策支持。未来,该技术有望应用于远程牙科诊断和个性化牙科治疗方案设计。

📄 摘要(原文)

Automatic tooth segmentation and identification from intra-oral scanned 3D models are fundamental problems in digital dentistry, yet most existing approaches rely on task-specific 3D neural networks trained with densely annotated datasets, resulting in high annotation cost and limited generalization to scans from unseen sources. Thus, we propose TSegAgent, which addresses these challenges by reformulating dental analysis as a zero-shot geometric reasoning problem rather than a purely data-driven recognition task. The key idea is to combine the representational capacity of general-purpose foundation models with explicit geometric inductive biases derived from dental anatomy. Instead of learning dental-specific features, the proposed framework leverages multi-view visual abstraction and geometry-grounded reasoning to infer tooth instances and identities without task-specific training. By explicitly encoding structural constraints such as dental arch organization and volumetric relationships, the method reduces uncertainty in ambiguous cases and mitigates overfitting to particular shape distributions. Experimental results demonstrate that this reasoning-oriented formulation enables accurate and reliable tooth segmentation and identification with low computational and annotation cost, while exhibiting strong generalization across diverse and previously unseen dental scans.