Towards Better Dental AI: A Multimodal Benchmark and Instruction Dataset for Panoramic X-ray Analysis
作者: Jing Hao, Yuxuan Fan, Yanpeng Sun, Kaixin Guo, Lizhuo Lin, Jinrong Yang, Qi Yong H. Ai, Lun M. Wong, Hao Tang, Kuo Feng Hung
分类: cs.CV, cs.MM
发布日期: 2025-09-11
备注: 40 pages, 26 figures, 9 tables
🔗 代码/项目: GITHUB
💡 一句话要点
提出MMOral:用于全景X光分析的多模态基准和指令数据集,并构建OralGPT模型。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 全景X光片分析 多模态学习 指令数据集 视觉语言模型 牙科AI
📋 核心要点
- 现有医学基准和指令数据集难以捕捉全景X光片中密集的解剖结构和细微的病理线索,限制了大型视觉语言模型(LVLM)在牙科领域的应用。
- 论文构建了大规模多模态指令数据集MMOral,并提出了OralGPT模型,通过监督微调提升LVLM在全景X光片分析任务中的性能。
- 实验结果表明,即使是GPT-4o在MMOral-Bench上的准确率也较低,而OralGPT通过单轮监督微调即可获得显著的性能提升。
📝 摘要(中文)
本文提出MMOral,首个专为全景X光片解读设计的大规模多模态指令数据集和基准。MMOral包含20563张带注释的图像,以及130万个指令跟随实例,涵盖属性提取、报告生成、视觉问答和图像引导对话等多种任务类型。此外,论文还提出了MMOral-Bench,一个包含牙科五个关键诊断维度的综合评估套件。在MMOral-Bench上评估了64个LVLM模型,结果表明,即使是性能最佳的模型GPT-4o,准确率也仅为41.45%,揭示了当前模型在该领域的局限性。为了促进该领域的进展,论文还提出了OralGPT,通过在Qwen2.5-VL-7B上使用精心策划的MMOral指令数据集进行监督微调(SFT)。令人瞩目的是,单轮SFT即可显著提高LVLM的性能,例如OralGPT的性能提升了24.73%。MMOral和OralGPT都具有作为智能牙科关键基础的巨大潜力,并能够在该领域实现更具临床影响力的多模态AI系统。
🔬 方法详解
问题定义:论文旨在解决现有大型视觉语言模型(LVLM)在牙科全景X光片分析方面表现不足的问题。现有的医学基准数据集和指令数据集无法充分覆盖牙科图像中复杂的解剖结构和细微的病理特征,导致LVLM难以准确理解和分析牙科X光片,限制了其在牙科领域的应用。
核心思路:论文的核心思路是构建一个专门针对牙科全景X光片的多模态指令数据集MMOral,并利用该数据集对LVLM进行监督微调,从而提升模型在牙科图像分析任务中的性能。通过提供大量的指令跟随实例,模型可以学习到如何从图像中提取关键信息,并生成相应的报告、回答问题或进行对话。
技术框架:整体框架包括两个主要部分:MMOral数据集的构建和OralGPT模型的训练。MMOral数据集包含20563张带注释的全景X光片,以及130万个指令跟随实例,涵盖属性提取、报告生成、视觉问答和图像引导对话等任务。OralGPT模型则是在Qwen2.5-VL-7B的基础上,使用MMOral数据集进行监督微调得到的。
关键创新:论文的关键创新在于构建了首个大规模的牙科全景X光片多模态指令数据集MMOral。该数据集不仅包含了大量的图像和注释,还提供了丰富的指令跟随实例,使得模型可以学习到如何从图像中提取关键信息并进行推理。此外,论文还提出了OralGPT模型,通过监督微调显著提升了LVLM在牙科图像分析任务中的性能。
关键设计:MMOral数据集的设计考虑了牙科诊断的多个关键维度,包括龋齿、牙周病、根尖周病、阻生齿和颌骨病变等。指令跟随实例的设计也涵盖了多种任务类型,例如属性提取、报告生成、视觉问答和图像引导对话。OralGPT模型的训练采用了监督微调的方法,使用交叉熵损失函数来优化模型参数。具体而言,使用Qwen2.5-VL-7B作为backbone,并使用MMOral数据集进行单轮微调。
🖼️ 关键图片
📊 实验亮点
实验结果表明,即使是性能最佳的通用LVLM模型GPT-4o在MMOral-Bench上的准确率也仅为41.45%,表明现有模型在牙科领域的局限性。而通过在Qwen2.5-VL-7B上使用MMOral数据集进行单轮监督微调,OralGPT模型的性能提升了24.73%,证明了该方法的有效性。
🎯 应用场景
该研究成果可应用于智能牙科诊断辅助系统,帮助牙医更准确、高效地分析全景X光片,提高诊断效率和准确性。未来,该技术有望扩展到其他牙科影像模态,并与其他临床数据相结合,实现更全面的智能牙科诊疗。
📄 摘要(原文)
Recent advances in large vision-language models (LVLMs) have demonstrated strong performance on general-purpose medical tasks. However, their effectiveness in specialized domains such as dentistry remains underexplored. In particular, panoramic X-rays, a widely used imaging modality in oral radiology, pose interpretative challenges due to dense anatomical structures and subtle pathological cues, which are not captured by existing medical benchmarks or instruction datasets. To this end, we introduce MMOral, the first large-scale multimodal instruction dataset and benchmark tailored for panoramic X-ray interpretation. MMOral consists of 20,563 annotated images paired with 1.3 million instruction-following instances across diverse task types, including attribute extraction, report generation, visual question answering, and image-grounded dialogue. In addition, we present MMOral-Bench, a comprehensive evaluation suite covering five key diagnostic dimensions in dentistry. We evaluate 64 LVLMs on MMOral-Bench and find that even the best-performing model, i.e., GPT-4o, only achieves 41.45% accuracy, revealing significant limitations of current models in this domain. To promote the progress of this specific domain, we also propose OralGPT, which conducts supervised fine-tuning (SFT) upon Qwen2.5-VL-7B with our meticulously curated MMOral instruction dataset. Remarkably, a single epoch of SFT yields substantial performance enhancements for LVLMs, e.g., OralGPT demonstrates a 24.73% improvement. Both MMOral and OralGPT hold significant potential as a critical foundation for intelligent dentistry and enable more clinically impactful multimodal AI systems in the dental field. The dataset, model, benchmark, and evaluation suite are available at https://github.com/isbrycee/OralGPT.