A benchmark multimodal oro-dental dataset for large vision-language models

📄 arXiv: 2511.04948v1 📥 PDF

作者: Haoxin Lv, Ijazul Haq, Jin Du, Jiaxin Ma, Binnian Zhu, Xiaobing Dang, Chaoan Liang, Ruxu Du, Yingjie Zhang, Muhammad Saqib

分类: cs.CV, cs.AI

发布日期: 2025-11-07


💡 一句话要点

构建大规模多模态牙科数据集,用于提升视觉-语言模型在口腔健康领域的应用

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态数据集 牙科 视觉-语言模型 Qwen-VL 口腔健康 人工智能 诊断报告生成

📋 核心要点

  1. 口腔健康领域人工智能发展受限于缺乏大规模多模态数据集,难以捕捉临床实践的复杂性。
  2. 论文构建了一个包含图像和文本的大规模牙科数据集,旨在促进视觉-语言模型在牙科诊断和治疗中的应用。
  3. 通过在提出的数据集上微调Qwen-VL模型,并在牙科异常分类和诊断报告生成任务上验证了数据集的有效性。

📝 摘要(中文)

本文提出了一个全面的多模态牙科数据集,包含来自4800名患者的8775次牙科检查,数据跨越八年(2018-2025),患者年龄范围从10岁到90岁。该数据集包括50000张口内图像、8056张X光片以及详细的文本记录,包括诊断、治疗计划和随访记录。数据在标准伦理准则下收集并进行标注,用于基准测试。为了验证其效用,我们对最先进的大型视觉-语言模型Qwen-VL 3B和7B进行了微调,并在两个任务上评估了它们:六种口腔异常的分类和从多模态输入生成完整的诊断报告。微调后的模型相比于其基础模型和GPT-4o取得了显著的性能提升,验证了数据集的有效性,并强调了其在推进人工智能驱动的口腔健康解决方案方面的作用。该数据集已公开,为未来人工智能牙科研究提供了一个重要的资源。

🔬 方法详解

问题定义:现有口腔健康领域的人工智能应用面临缺乏大规模、高质量多模态数据集的挑战。现有的方法难以充分利用图像和文本信息进行综合分析,导致诊断准确率和效率受限。该论文旨在构建一个包含口内图像、X光片和文本记录的综合数据集,以促进相关研究。

核心思路:论文的核心思路是构建一个大规模、多模态的牙科数据集,并利用该数据集微调先进的视觉-语言模型,使其能够更好地理解和处理牙科领域的复杂信息。通过整合图像和文本信息,模型可以更准确地进行牙科异常分类和生成诊断报告。

技术框架:该研究的技术框架主要包括数据收集、数据标注、模型微调和性能评估四个阶段。首先,收集了包含口内图像、X光片和文本记录的大量牙科检查数据。然后,对数据进行标注,用于训练和评估模型。接着,使用收集到的数据集对Qwen-VL 3B和7B等大型视觉-语言模型进行微调。最后,在牙科异常分类和诊断报告生成任务上评估微调后的模型性能。

关键创新:该论文的关键创新在于构建了一个大规模、多模态的牙科数据集,该数据集包含了丰富的图像和文本信息,能够为人工智能在口腔健康领域的应用提供有力支持。此外,通过在该数据集上微调先进的视觉-语言模型,验证了数据集的有效性,并展示了其在牙科诊断和治疗方面的潜力。

关键设计:在模型微调过程中,采用了交叉熵损失函数进行牙科异常分类任务的训练,并使用序列到序列的生成模型进行诊断报告生成任务的训练。具体参数设置和网络结构细节未知,但论文强调了使用Qwen-VL 3B和7B模型作为基础模型进行微调。

📊 实验亮点

通过在提出的数据集上微调Qwen-VL 3B和7B模型,并在牙科异常分类和诊断报告生成任务上进行评估,结果表明微调后的模型相比于其基础模型和GPT-4o取得了显著的性能提升。具体提升幅度未知,但实验结果验证了数据集的有效性。

🎯 应用场景

该研究成果可应用于辅助牙科诊断、制定个性化治疗方案、提高诊断效率和准确性。未来,该数据集和微调模型可进一步应用于远程医疗、患者教育和口腔健康监测等领域,有望提升整体口腔健康水平。

📄 摘要(原文)

The advancement of artificial intelligence in oral healthcare relies on the availability of large-scale multimodal datasets that capture the complexity of clinical practice. In this paper, we present a comprehensive multimodal dataset, comprising 8775 dental checkups from 4800 patients collected over eight years (2018-2025), with patients ranging from 10 to 90 years of age. The dataset includes 50000 intraoral images, 8056 radiographs, and detailed textual records, including diagnoses, treatment plans, and follow-up notes. The data were collected under standard ethical guidelines and annotated for benchmarking. To demonstrate its utility, we fine-tuned state-of-the-art large vision-language models, Qwen-VL 3B and 7B, and evaluated them on two tasks: classification of six oro-dental anomalies and generation of complete diagnostic reports from multimodal inputs. We compared the fine-tuned models with their base counterparts and GPT-4o. The fine-tuned models achieved substantial gains over these baselines, validating the dataset and underscoring its effectiveness in advancing AI-driven oro-dental healthcare solutions. The dataset is publicly available, providing an essential resource for future research in AI dentistry.