DentVLM: A Multimodal Vision-Language Model for Comprehensive Dental Diagnosis and Enhanced Clinical Practice

📄 arXiv: 2509.23344v1 📥 PDF

作者: Zijie Meng, Jin Hao, Xiwei Dai, Yang Feng, Jiaxiang Liu, Bin Feng, Huikai Wu, Xiaotang Gai, Hengchuan Zhu, Tianxiang Hu, Yangyang Wu, Hongxia Xu, Jin Li, Jun Xiao, Xiaoqiang Liu, Joey Tianyi Zhou, Fudong Zhu, Zhihe Zhao, Lunguo Xia, Bing Fang, Jimeng Sun, Jian Wu, Zuozhu Liu

分类: cs.CV, cs.AI

发布日期: 2025-09-27


💡 一句话要点

DentVLM:用于全面牙科诊断和增强临床实践的多模态视觉-语言模型

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 视觉语言模型 牙科诊断 临床决策支持 医学影像分析

📋 核心要点

  1. 现有AI模型难以满足牙科临床实践中复杂的多模态信息整合需求,限制了其在全面牙科诊断中的应用。
  2. DentVLM通过大规模双语数据集训练,能够理解多种口腔影像模态,并执行专家级的口腔疾病诊断。
  3. 临床实验表明,DentVLM在多项诊断任务中超越了初级和高级牙医,并能显著提升诊断效率。

📝 摘要(中文)

口腔疾病的诊断和管理需要对各种影像模态进行高级视觉解释和综合信息整合。虽然目前的人工智能模型擅长孤立的任务,但它们往往无法满足综合临床牙科实践中复杂的多模态需求。本文介绍了DentVLM,一种专为专家级口腔疾病诊断而设计的视觉-语言模型。DentVLM是使用包含110,447张图像和246万个视觉问答(VQA)对的大规模双语数据集开发的。该模型能够解释七种2D口腔影像模态,涵盖36个诊断任务,在口腔疾病诊断方面的准确率比领先的专有和开源模型高出19.6%,在错颌畸形诊断方面的准确率高出27.9%。在一项涉及25名牙医的临床研究中,评估了1946名患者和3105个问答对,DentVLM在36项任务中的21项上超过了13名初级牙医的诊断性能,并在36项任务中的12项上超过了12名高级牙医的诊断性能。当集成到协作工作流程中时,DentVLM将初级牙医的性能提升到高级水平,并将所有从业人员的诊断时间缩短了15-22%。此外,DentVLM在三个实际应用场景中表现出良好的性能,包括家庭牙齿健康管理、医院智能诊断和多智能体协同交互。这些发现确立了DentVLM作为一种强大的临床决策支持工具的地位,有望加强初级牙科护理,缓解医患失衡,并在牙科领域普及专业医疗知识。

🔬 方法详解

问题定义:论文旨在解决当前AI模型在牙科诊断中无法有效整合多模态信息的问题。现有方法通常专注于单一模态或特定任务,缺乏对口腔疾病全面理解的能力,导致诊断准确率和效率受限。

核心思路:论文的核心思路是构建一个多模态视觉-语言模型DentVLM,通过大规模的视觉问答数据进行训练,使其能够理解和推理不同类型的口腔影像信息,并结合语言描述进行综合诊断。这种设计旨在模拟牙科专家的诊断过程,提升诊断的准确性和全面性。

技术框架:DentVLM的整体架构包含视觉编码器、语言编码器和多模态融合模块。视觉编码器负责提取不同口腔影像模态的特征,语言编码器负责处理与影像相关的文本描述或问题。多模态融合模块将视觉和语言特征进行融合,用于预测诊断结果或回答相关问题。

关键创新:DentVLM的关键创新在于其大规模的多模态训练数据集和针对牙科诊断任务优化的模型结构。该数据集包含多种口腔影像模态和丰富的视觉问答对,能够有效提升模型的泛化能力和诊断准确率。此外,模型结构的设计也考虑了牙科诊断的特点,例如对细微病灶的关注和对多模态信息的综合利用。

关键设计:DentVLM使用了Transformer架构作为其核心组件,并针对牙科影像的特点进行了调整。具体来说,视觉编码器可能采用预训练的卷积神经网络(CNN)或Vision Transformer (ViT),语言编码器则采用预训练的语言模型(如BERT)。多模态融合模块可能采用注意力机制或跨模态Transformer来学习视觉和语言特征之间的关联。损失函数的设计可能包括诊断分类损失和视觉问答损失,以确保模型能够同时进行准确的诊断和回答相关问题。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,DentVLM在口腔疾病诊断方面的准确率比领先的专有和开源模型高出19.6%,在错颌畸形诊断方面的准确率高出27.9%。在临床研究中,DentVLM在多项诊断任务中超越了初级和高级牙医的诊断水平,并将所有从业人员的诊断时间缩短了15-22%。

🎯 应用场景

DentVLM具有广泛的应用前景,可用于家庭牙齿健康管理,帮助患者进行初步筛查和风险评估;在医院中,可作为智能诊断助手,辅助医生进行诊断决策,提高诊断效率和准确性;还可应用于多智能体协同交互场景,实现远程会诊和专家咨询,提升医疗资源的可及性。

📄 摘要(原文)

Diagnosing and managing oral diseases necessitate advanced visual interpretation across diverse imaging modalities and integrated information synthesis. While current AI models excel at isolated tasks, they often fall short in addressing the complex, multimodal requirements of comprehensive clinical dental practice. Here we introduce DentVLM, a multimodal vision-language model engineered for expert-level oral disease diagnosis. DentVLM was developed using a comprehensive, large-scale, bilingual dataset of 110,447 images and 2.46 million visual question-answering (VQA) pairs. The model is capable of interpreting seven 2D oral imaging modalities across 36 diagnostic tasks, significantly outperforming leading proprietary and open-source models by 19.6% higher accuracy for oral diseases and 27.9% for malocclusions. In a clinical study involving 25 dentists, evaluating 1,946 patients and encompassing 3,105 QA pairs, DentVLM surpassed the diagnostic performance of 13 junior dentists on 21 of 36 tasks and exceeded that of 12 senior dentists on 12 of 36 tasks. When integrated into a collaborative workflow, DentVLM elevated junior dentists' performance to senior levels and reduced diagnostic time for all practitioners by 15-22%. Furthermore, DentVLM exhibited promising performance across three practical utility scenarios, including home-based dental health management, hospital-based intelligent diagnosis and multi-agent collaborative interaction. These findings establish DentVLM as a robust clinical decision support tool, poised to enhance primary dental care, mitigate provider-patient imbalances, and democratize access to specialized medical expertise within the field of dentistry.