Pocket-Dentist: On-Device Dental Image Understanding via Efficient Multimodal Large Language Models

作者: Kai Bian, Xucheng Guo, Bin Chen, Lingyan Ruan, Yiran Shen, Ting Dang, Hong Jia

分类: cs.CV, cs.AI

发布日期: 2026-05-28 (更新: 2026-05-29)

💡 一句话要点

Pocket-Dentist：通过高效多模态大语言模型实现设备端牙科图像理解

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 牙科图像理解 多模态大语言模型 设备端部署 模型效率 视觉问答

📋 核心要点

现有牙科视觉语言模型评估分散，忽略计算成本，限制了其在资源受限环境中的应用。
提出Pocket-Dentist，一个效率感知的牙科多模态问答基准，并探索了紧凑型VLM的潜力。
实验表明，2B参数的紧凑型VLM在准确率上优于大型VLM，且计算成本更低，并在iPhone上实现了高效部署。

📝 摘要（中文）

牙科视觉-语言模型的评估在数据集、任务定义和指标上仍然是分散的，并且常常忽略其计算成本。这限制了它们在专业中心之外的牙科筛查中的广泛部署，而及时的推理、有限的硬件以及患者图像的本地处理对于实际的、保护隐私的临床预筛查至关重要。本文提出了Pocket-Dentist，这是一个效率感知的牙科多模态问答基准，它汇集了三个数据集，涵盖约1159名患者、五种任务类型和七个指标。对14个典型的VLM进行评估，结果揭示了一个有趣的观察结果：紧凑型VLM（例如，20亿参数模型）在准确性方面优于大型VLM，同时在牙科图像理解中需要低得多的计算成本。在iPhone 17 Pro上本地部署时，我们微调的紧凑型VLM Pocket-Dentist-2B在4.31秒内处理每个样本，与7B基线相比，延迟降低了4.9倍，内存使用量减少了2.3倍。

🔬 方法详解

问题定义：现有牙科视觉语言模型（VLM）的评估体系不完善，缺乏统一的基准，并且忽略了计算效率。这阻碍了VLM在资源受限的场景，例如移动设备上的牙科预筛查中的应用。现有方法通常侧重于提升模型精度，而忽略了实际部署所需的低延迟和低功耗需求。

核心思路：本文的核心思路是探索紧凑型VLM在牙科图像理解任务中的潜力。作者认为，通过合理的模型设计和微调，可以在保证甚至提升准确率的同时，大幅降低计算成本，从而实现VLM在移动设备上的高效部署。这种思路强调了模型效率与精度的平衡。

技术框架：Pocket-Dentist框架包含以下几个关键部分：1) 构建了一个包含多个牙科数据集的综合基准，涵盖多种任务类型和评估指标。2) 评估了多个不同规模的VLM在牙科图像理解任务上的性能。3) 针对紧凑型VLM进行了微调优化，以进一步提升其性能。4) 在移动设备上进行了实际部署和性能测试，验证了其高效性。

关键创新：该论文的关键创新在于：1) 提出了一个效率感知的牙科多模态问答基准，填补了现有评估体系的空白。2) 证明了紧凑型VLM在牙科图像理解任务中具有优越的性能和效率。3) 实现了VLM在移动设备上的高效部署，为牙科预筛查提供了新的解决方案。

关键设计：论文的关键设计包括：1) 数据集的选择和整合，确保了基准的全面性和代表性。2) 模型选择上，重点关注参数量较小的VLM，例如2B参数的模型。3) 微调策略上，采用了针对牙科图像的特定优化方法。4) 部署优化上，针对移动设备的硬件特性进行了专门的优化，例如模型量化和剪枝。

🖼️ 关键图片

📊 实验亮点

实验结果表明，2B参数的紧凑型VLM（Pocket-Dentist-2B）在准确率上优于大型VLM，并在iPhone 17 Pro上实现了4.31秒的单样本处理速度，相比7B参数的基线模型，延迟降低了4.9倍，内存使用量减少了2.3倍。这证明了紧凑型VLM在移动设备上进行牙科图像理解的可行性和优越性。

🎯 应用场景

该研究成果可应用于移动端的牙科疾病预筛查，帮助患者在家中或诊所外进行初步评估，提高早期发现和治疗的可能性。同时，该方法也适用于资源受限的医疗机构，降低部署成本，提升医疗服务的可及性。未来，该技术有望与远程医疗相结合，实现更便捷、高效的牙科健康管理。

📄 摘要（原文）

Evaluations of dental vision-language models remain fragmented across datasets, task definitions and metrics, and often ignore their computational cost. This limits their widespread deployment for dental screening outside specialist centres, where timely inference, limited hardware, and local handling of patient images are vital for practical, privacy-preserving clinical prescreening. Here we present Pocket-Dentist, an efficiency-aware benchmark for dental multimodal question answering that brings together three datasets spanning approximately 1,159 patients, five task types and seven metrics. Across typical 14 VLMs, our results reveals an interesting observation: compact VLMs (e.g., 2B-parameter models) outperform larger VLMs in accuracy while requiring substantially lower computational costs in dental image understanding. Deployed locally on an iPhone 17 Pro, our finetuned compact VLM Pocket-Dentist-2B processed each sample in 4.31 s, reducing latency by 4.9-fold and memory use by 2.3-fold compared with a 7B baseline.

Pocket-Dentist: On-Device Dental Image Understanding via Efficient Multimodal Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理