A benchmark multimodal oro-dental dataset for large vision-language models

作者: Haoxin Lv, Ijazul Haq, Jin Du, Jiaxin Ma, Binnian Zhu, Xiaobing Dang, Chaoan Liang, Ruxu Du, Yingjie Zhang, Muhammad Saqib

分类: cs.CV, cs.AI

发布日期: 2025-11-07

💡 一句话要点

构建大规模多模态牙科数据集，用于提升视觉-语言模型在口腔健康领域的应用

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态数据集 牙科 视觉-语言模型 Qwen-VL 口腔健康 人工智能 诊断报告生成

📋 核心要点

口腔健康领域人工智能发展受限于缺乏大规模多模态数据集，难以捕捉临床实践的复杂性。
论文构建了一个包含图像和文本的大规模牙科数据集，旨在促进视觉-语言模型在牙科诊断和治疗中的应用。
通过在提出的数据集上微调Qwen-VL模型，并在牙科异常分类和诊断报告生成任务上验证了数据集的有效性。

📝 摘要（中文）

本文提出了一个全面的多模态牙科数据集，包含来自4800名患者的8775次牙科检查，数据跨越八年（2018-2025），患者年龄范围从10岁到90岁。该数据集包括50000张口内图像、8056张X光片以及详细的文本记录，包括诊断、治疗计划和随访记录。数据在标准伦理准则下收集并进行标注，用于基准测试。为了验证其效用，我们对最先进的大型视觉-语言模型Qwen-VL 3B和7B进行了微调，并在两个任务上评估了它们：六种口腔异常的分类和从多模态输入生成完整的诊断报告。微调后的模型相比于其基础模型和GPT-4o取得了显著的性能提升，验证了数据集的有效性，并强调了其在推进人工智能驱动的口腔健康解决方案方面的作用。该数据集已公开，为未来人工智能牙科研究提供了一个重要的资源。

🔬 方法详解

问题定义：现有口腔健康领域的人工智能应用面临缺乏大规模、高质量多模态数据集的挑战。现有的方法难以充分利用图像和文本信息进行综合分析，导致诊断准确率和效率受限。该论文旨在构建一个包含口内图像、X光片和文本记录的综合数据集，以促进相关研究。

核心思路：论文的核心思路是构建一个大规模、多模态的牙科数据集，并利用该数据集微调先进的视觉-语言模型，使其能够更好地理解和处理牙科领域的复杂信息。通过整合图像和文本信息，模型可以更准确地进行牙科异常分类和生成诊断报告。

技术框架：该研究的技术框架主要包括数据收集、数据标注、模型微调和性能评估四个阶段。首先，收集了包含口内图像、X光片和文本记录的大量牙科检查数据。然后，对数据进行标注，用于训练和评估模型。接着，使用收集到的数据集对Qwen-VL 3B和7B等大型视觉-语言模型进行微调。最后，在牙科异常分类和诊断报告生成任务上评估微调后的模型性能。

关键创新：该论文的关键创新在于构建了一个大规模、多模态的牙科数据集，该数据集包含了丰富的图像和文本信息，能够为人工智能在口腔健康领域的应用提供有力支持。此外，通过在该数据集上微调先进的视觉-语言模型，验证了数据集的有效性，并展示了其在牙科诊断和治疗方面的潜力。

关键设计：在模型微调过程中，采用了交叉熵损失函数进行牙科异常分类任务的训练，并使用序列到序列的生成模型进行诊断报告生成任务的训练。具体参数设置和网络结构细节未知，但论文强调了使用Qwen-VL 3B和7B模型作为基础模型进行微调。

📊 实验亮点

通过在提出的数据集上微调Qwen-VL 3B和7B模型，并在牙科异常分类和诊断报告生成任务上进行评估，结果表明微调后的模型相比于其基础模型和GPT-4o取得了显著的性能提升。具体提升幅度未知，但实验结果验证了数据集的有效性。

🎯 应用场景

该研究成果可应用于辅助牙科诊断、制定个性化治疗方案、提高诊断效率和准确性。未来，该数据集和微调模型可进一步应用于远程医疗、患者教育和口腔健康监测等领域，有望提升整体口腔健康水平。

📄 摘要（原文）

The advancement of artificial intelligence in oral healthcare relies on the availability of large-scale multimodal datasets that capture the complexity of clinical practice. In this paper, we present a comprehensive multimodal dataset, comprising 8775 dental checkups from 4800 patients collected over eight years (2018-2025), with patients ranging from 10 to 90 years of age. The dataset includes 50000 intraoral images, 8056 radiographs, and detailed textual records, including diagnoses, treatment plans, and follow-up notes. The data were collected under standard ethical guidelines and annotated for benchmarking. To demonstrate its utility, we fine-tuned state-of-the-art large vision-language models, Qwen-VL 3B and 7B, and evaluated them on two tasks: classification of six oro-dental anomalies and generation of complete diagnostic reports from multimodal inputs. We compared the fine-tuned models with their base counterparts and GPT-4o. The fine-tuned models achieved substantial gains over these baselines, validating the dataset and underscoring its effectiveness in advancing AI-driven oro-dental healthcare solutions. The dataset is publicly available, providing an essential resource for future research in AI dentistry.

A benchmark multimodal oro-dental dataset for large vision-language models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理