Large Language Models for Medical OSCE Assessment: A Novel Approach to Transcript Analysis
作者: Ameer Hamza Shakur, Michael J. Holcomb, David Hein, Shinyoung Kang, Thomas O. Dalton, Krystle K. Campbell, Daniel J. Scott, Andrew R. Jamieson
分类: cs.CL, cs.AI
发布日期: 2024-10-11
💡 一句话要点
利用大型语言模型进行医学OSCE评估,实现病史总结能力自动评分
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 医学教育 OSCE评估 自动评分 沟通技巧
📋 核心要点
- 传统OSCE评分依赖人工,耗时费力,成本高昂,亟需自动化解决方案。
- 利用LLM分析OSCE转录文本,评估学生总结病史的能力,探索自动化评分的可能性。
- GPT-4等模型与人类评分员高度一致(kappa=0.88),开源模型也表现出潜力,为自动化评分提供可能。
📝 摘要(中文)
本研究探索了大型语言模型(LLM)在评估医学学生沟通技巧方面的潜力,旨在解决客观结构化临床考试(OSCE)评分耗时且成本高昂的问题。研究分析了来自德克萨斯大学西南医学中心(UTSW)2019-2022年间2027个OSCE视频记录,重点评估学生总结病史的能力。研究使用Whisper-v3转录OSCE视频中的语音,并评估了各种基于LLM的方法对学生病史总结任务的评分表现。通过零样本思维链提示、检索增强生成和多模型集成等技术,利用GPT-4等先进LLM模型,结果表明LLM与人类评分员高度一致,Cohen's kappa系数达到0.88,表明LLM在OSCE评分中具有增强现有评分流程的巨大潜力。开源模型也显示出良好的结果,预示着大规模、低成本部署的可能性。此外,本研究还进行了失败分析,识别了LLM评分可能不太可靠的情况,并为在医学教育环境中部署LLM提出了最佳实践。
🔬 方法详解
问题定义:本研究旨在解决医学OSCE考试中,对学生沟通技巧(特别是病史总结能力)进行评分时,人工评分耗时、成本高昂且主观性强的问题。现有方法依赖于人工专家,效率低下且难以规模化应用。
核心思路:核心思路是利用大型语言模型(LLM)理解和评估学生在OSCE考试中的口头表达,特别是针对病史总结这一特定任务。通过将学生的口语转录为文本,然后利用LLM进行分析和评分,从而实现自动化评估。这种方法旨在减少人工干预,提高评分效率和一致性。
技术框架:整体流程包括:1) 使用Whisper-v3将OSCE视频中的语音转录为文本;2) 使用不同的LLM(包括GPT-4等闭源模型和开源模型)对转录文本进行分析;3) 应用不同的提示工程技术,如零样本思维链提示和检索增强生成,以提高LLM的评分准确性;4) 使用Cohen's kappa系数评估LLM评分与人工评分员的一致性;5) 进行失败分析,识别LLM评分的局限性。
关键创新:关键创新在于将大型语言模型应用于医学OSCE考试的自动评分,特别是针对沟通技巧的评估。与传统的依赖人工评分的方法相比,该方法具有更高的效率和可扩展性。此外,研究还探索了不同的提示工程技术和模型集成方法,以提高LLM的评分准确性。
关键设计:研究中使用了多种LLM模型,包括闭源的GPT-4和开源模型。采用了零样本思维链提示,引导LLM逐步推理并给出评分。使用了检索增强生成,通过检索相关医学知识来辅助LLM进行评分。使用Cohen's kappa系数作为评估指标,衡量LLM评分与人工评分员的一致性。没有提及具体的损失函数或网络结构,因为主要侧重于利用现有LLM的能力。
🖼️ 关键图片
📊 实验亮点
研究结果表明,GPT-4等先进LLM模型在评估学生病史总结能力方面与人类评分员高度一致,Cohen's kappa系数达到0.88。开源模型也表现出良好的潜力,为低成本部署提供了可能。这些结果表明LLM在医学教育评估中具有巨大的应用前景。
🎯 应用场景
该研究成果可应用于医学教育领域,实现OSCE考试的自动化评分,减轻教师负担,提高评分效率和一致性。此外,该方法还可扩展到其他需要评估沟通技巧的场景,如患者咨询、医患沟通培训等。未来,结合多模态信息(如面部表情、肢体语言),有望进一步提升评估的准确性和全面性。
📄 摘要(原文)
Grading Objective Structured Clinical Examinations (OSCEs) is a time-consuming and expensive process, traditionally requiring extensive manual effort from human experts. In this study, we explore the potential of Large Language Models (LLMs) to assess skills related to medical student communication. We analyzed 2,027 video-recorded OSCE examinations from the University of Texas Southwestern Medical Center (UTSW), spanning four years (2019-2022), and several different medical cases or "stations." Specifically, our focus was on evaluating students' ability to summarize patients' medical history: we targeted the rubric item 'did the student summarize the patients' medical history?' from the communication skills rubric. After transcribing speech audio captured by OSCE videos using Whisper-v3, we studied the performance of various LLM-based approaches for grading students on this summarization task based on their examination transcripts. Using various frontier-level open-source and proprietary LLMs, we evaluated different techniques such as zero-shot chain-of-thought prompting, retrieval augmented generation, and multi-model ensemble methods. Our results show that frontier LLM models like GPT-4 achieved remarkable alignment with human graders, demonstrating a Cohen's kappa agreement of 0.88 and indicating strong potential for LLM-based OSCE grading to augment the current grading process. Open-source models also showed promising results, suggesting potential for widespread, cost-effective deployment. Further, we present a failure analysis identifying conditions where LLM grading may be less reliable in this context and recommend best practices for deploying LLMs in medical education settings.