Deep Learning-based 3D Oral Cavity Reconstruction Using 2D Intraoral Images
作者: Jihun Cho, Soo-Yeon Jeong, Eun-Jeong Bae, Sun-Young Ihm
分类: cs.CV, cs.AI
发布日期: 2026-06-04
备注: 4 pages, 5 figures. English version of a paper presented at the Korea Multimedia Society Conference, November 2025
💡 一句话要点
提出基于深度学习的3D口腔重建方法以解决传统扫描局限性
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 3D口腔重建 深度学习 图像处理 多视角特征融合 MobileNetV2 牙科应用 自动化建模
📋 核心要点
- 现有的口腔3D建模方法如印模和口内扫描存在显著的局限性,导致患者不适和高昂的设备成本。
- 本文提出了一种基于软件的3D口腔模型重建方法,仅需十张2D图像,消除了对专用硬件的依赖。
- 在Dental3DS数据集上进行训练,模型实现了77.49%的准确率,尽管重建的点分布存在不均匀现象。
📝 摘要(中文)
口腔3D建模是牙科的重要环节,传统的印模和口内扫描方法各有局限。印模方法存在患者不适、材料变形及存储运输困难等问题,而口内扫描设备成本高昂。为解决这些问题,本文提出了一种基于软件的方法,仅使用十张不同角度的2D口内图像重建3D口腔模型,无需专用硬件。该方法降低了成本,减少了患者不适,并实现了自动化的3D重建。模型在公开的Dental3DS数据集上训练,使用MobileNetV2作为图像编码器,结合多头注意力机制进行多视角特征融合,最终实现77.49%的准确率,但重建模型的点分布不均匀。
🔬 方法详解
问题定义:本文旨在解决传统口腔3D建模方法的不足,包括患者不适、材料变形及高设备成本等问题。现有的印模和口内扫描技术均存在明显的局限性。
核心思路:提出了一种基于深度学习的3D重建方法,通过仅使用十张不同角度的2D口内图像,避免了对物理扫描设备的需求,从而降低了成本和患者的不适感。
技术框架:整体架构包括数据采集、图像编码、特征融合和3D重建四个主要模块。使用MobileNetV2作为图像编码器,结合多头注意力机制进行多视角特征的融合,最终生成3D模型。
关键创新:最重要的创新在于通过深度学习实现了无硬件依赖的3D重建,显著降低了建模成本和患者的不适感。与传统方法相比,该方法在技术实现上具有更高的灵活性和可操作性。
关键设计:模型训练使用公开的Dental3DS数据集,包含950个上颌样本。损失函数和网络结构经过精心设计,以优化重建效果,尽管重建的点在高密度区域集中,导致分布不均。
🖼️ 关键图片
📊 实验亮点
实验结果显示,所提出的模型在Dental3DS数据集上达到了77.49%的准确率,使用最近邻匹配法,距离阈值为0.035。尽管存在点分布不均的问题,但相较于传统方法,显著降低了设备成本和患者不适。
🎯 应用场景
该研究的潜在应用领域包括牙科诊所、口腔医学研究及相关医疗设备开发。通过简化3D建模流程,能够提高牙科治疗的效率和患者体验,未来可能推动个性化牙科治疗的发展。
📄 摘要(原文)
Oral 3D modelling is one of the most essential stages in dentistry, and many different approaches, such as impression taking and intraoral scanning, are commonly used for this phase, each with notable limitations. Impression taking, which involves placing alginate or silicone material in a tray and inserting it into the patient's oral cavity to form a negative mold, suffers from significant patient discomfort, material deformation errors, and difficulties in storage and transportation. Intraoral scanners, which directly scan oral structures in real time using structured light or laser technology, produce state-of-the-art results but are associated with substantially high equipment costs. To address these limitations, this paper proposes a software-based approach that reconstructs a 3D oral model using only ten 2D intraoral images captured from different angles, requiring no dedicated hardware devices. The proposed method reduces cost, eliminates the need for physical scanning equipment, minimises patient discomfort, and enables automated 3D reconstruction. The model is trained on the publicly available Dental3DS dataset, comprising 950 upper jaw samples, and employs MobileNetV2 as the image encoder combined with Multi-head Attention for multi-view feature fusion. The proposed model achieves an accuracy of 77.49%, measured by nearest-neighbor matching with a distance threshold of 0.035. However, predicted vertices tend to concentrate in high-density regions of the ground truth, resulting in uneven point distribution across the reconstructed model.