DeepSeek performs better than other Large Language Models in Dental Cases

作者: Hexian Zhang, Xinyu Yan, Yanqi Yang, Lijian Jin, Ping Yang, Junwen Wang

分类: cs.CL, cs.AI

发布日期: 2025-09-02

备注: Abstract word count: 171; Total word count: 3130; Total number of tables: 2; Total number of figures: 3; Number of references: 32

💡 一句话要点

DeepSeek在大语言模型牙科病例分析中表现优于其他模型

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 牙科病例分析 DeepSeek 医疗人工智能 纵向数据 临床决策支持

📋 核心要点

现有大型语言模型在医疗领域应用潜力巨大，但在处理纵向患者叙述方面仍存在不足，尤其是在牙科等专业领域。
该研究利用牙科病例的结构化数据，评估了包括DeepSeek在内的多种LLM在分析牙科病例方面的推理能力。
实验结果表明，DeepSeek在忠实性和专家评分方面均优于其他模型，有望成为牙科领域案例分析的领先LLM。

📝 摘要（中文）

大型语言模型(LLMs)在医疗保健领域具有变革潜力，但它们解释纵向患者叙述的能力尚未得到充分探索。牙科拥有丰富的结构化临床数据，为严格评估LLMs的推理能力提供了一个独特的机会。虽然已经存在一些商业LLMs，但今年早些时候备受关注的DeepSeek也加入了竞争。本研究评估了四种最先进的LLMs（GPT-4o、Gemini 2.0 Flash、Copilot和DeepSeek V3）通过开放式临床任务分析纵向牙科病例摘要的能力。使用34个标准化的纵向牙周病例（包括258个问答对），我们通过自动指标和持照牙医的盲法评估来评估模型性能。DeepSeek表现最佳，展示出卓越的忠实性（中位数得分=0.528 vs. 0.367-0.457）和更高的专家评分（中位数=4.5/5 vs. 4.0/5），且没有显著降低可读性。我们的研究将DeepSeek定位为案例分析的领先LLM，支持将其作为医学教育和研究中的辅助工具进行整合，并强调其作为领域特定代理的潜力。

🔬 方法详解

问题定义：论文旨在评估和比较不同大型语言模型在牙科纵向病例分析中的表现。现有方法在处理复杂的、时间跨度长的牙科病例时，可能存在理解不准确、推理能力不足等问题，导致诊断和治疗建议的偏差。

核心思路：论文的核心思路是通过构建标准化的纵向牙周病例数据集，并设计开放式的临床任务，来系统地评估不同LLM在牙科领域的专业知识和推理能力。通过对比不同模型的表现，找出最适合牙科应用的LLM。

技术框架：该研究的技术框架主要包括以下几个步骤：1) 构建包含34个标准化纵向牙周病例的数据集，每个病例包含多个问答对；2) 选择四种最先进的LLM（GPT-4o、Gemini 2.0 Flash、Copilot和DeepSeek V3）进行评估；3) 使用自动指标（如忠实性得分）和人工评估（由持照牙医进行盲法评估）来评估模型性能；4) 对比不同模型的表现，确定最佳模型。

关键创新：该研究的关键创新在于：1) 针对牙科领域构建了标准化的纵向病例数据集，为LLM的评估提供了可靠的基础；2) 采用自动指标和人工评估相结合的方式，全面评估了LLM的性能；3) 首次证明了DeepSeek模型在牙科病例分析中优于其他主流LLM。

关键设计：研究中使用了标准化纵向牙周病例，保证了评估的客观性和可重复性。忠实性得分用于衡量模型生成答案与病例信息的匹配程度。持照牙医的盲法评估则从专业角度评估了模型的临床实用性。具体参数设置和损失函数等技术细节在论文中未详细说明，可能使用了各LLM的默认设置。

📊 实验亮点

DeepSeek在牙科病例分析中表现最佳，忠实性中位数得分达到0.528，显著高于其他模型（0.367-0.457）。专家评分也更高，中位数为4.5/5，而其他模型为4.0/5。这些结果表明DeepSeek在理解和处理牙科病例方面具有显著优势。

🎯 应用场景

该研究成果可应用于牙科医学教育和临床研究，辅助医生进行病例分析和诊断决策。DeepSeek作为领先的LLM，有望成为牙科领域特定代理，提升医疗效率和质量。未来，可进一步扩展到其他医学领域，推动AI在医疗行业的应用。

📄 摘要（原文）

Large language models (LLMs) hold transformative potential in healthcare, yet their capacity to interpret longitudinal patient narratives remains inadequately explored. Dentistry, with its rich repository of structured clinical data, presents a unique opportunity to rigorously assess LLMs' reasoning abilities. While several commercial LLMs already exist, DeepSeek, a model that gained significant attention earlier this year, has also joined the competition. This study evaluated four state-of-the-art LLMs (GPT-4o, Gemini 2.0 Flash, Copilot, and DeepSeek V3) on their ability to analyze longitudinal dental case vignettes through open-ended clinical tasks. Using 34 standardized longitudinal periodontal cases (comprising 258 question-answer pairs), we assessed model performance via automated metrics and blinded evaluations by licensed dentists. DeepSeek emerged as the top performer, demonstrating superior faithfulness (median score = 0.528 vs. 0.367-0.457) and higher expert ratings (median = 4.5/5 vs. 4.0/5), without significantly compromising readability. Our study positions DeepSeek as the leading LLM for case analysis, endorses its integration as an adjunct tool in both medical education and research, and highlights its potential as a domain-specific agent.

DeepSeek performs better than other Large Language Models in Dental Cases

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理