Benchmarking Generative AI for Scoring Medical Student Interviews in Objective Structured Clinical Examinations (OSCEs)
作者: Jadon Geathers, Yann Hicke, Colleen Chan, Niroop Rajashekar, Justin Sewell, Susannah Cornes, Rene F. Kizilcec, Dennis Shung
分类: cs.CL, cs.AI
发布日期: 2025-01-21 (更新: 2025-05-15)
备注: 12 pages + 3 pages of references, 4 figures
💡 一句话要点
利用生成式AI评估医学学生OSCE面试表现,实现客观结构化临床考试评分自动化。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 医学教育 OSCE 自动评估 临床沟通技巧
📋 核心要点
- 人工评估OSCE面试耗时且易受主观偏见影响,亟需更高效客观的评估方法。
- 利用大型语言模型(LLMs)自动评估OSCE面试,通过多种prompting策略提高评分准确性。
- 实验表明LLMs在OSCE评估中具有潜力,为AI辅助医学教育评估提供了基准。
📝 摘要(中文)
本研究探索了大型语言模型(LLMs)在客观结构化临床考试(OSCEs)中自动评估医学学生沟通技巧的潜力,旨在解决人工评分耗时且存在偏见的问题。研究比较了四种先进的LLMs(GPT-4o、Claude 3.5、Llama 3.1和Gemini 1.5 Pro)在Master Interview Rating Scale(MIRS)的28个项目上的表现,采用了零样本、思维链(CoT)、少样本和多步提示等方法。模型性能通过与包含10个OSCE案例和174个专家共识分数的基准数据集进行对比评估,使用精确度、差一精确度和阈值精确度三个指标衡量。结果显示,LLMs的平均精确度较低(0.27至0.44),但差一精确度(0.67至0.87)和阈值精确度(0.75至0.88)达到中等到较高水平。零温度参数确保了较高的内部一致性(GPT-4o的α = 0.98)。CoT、少样本和多步技术在针对特定评估项目时表现出价值。性能在MIRS项目之间保持一致,与遭遇阶段和沟通领域无关。该研究证明了AI辅助OSCE评估的可行性,并为多种LLMs在多种提示技术下的表现提供了基准,为未来临床沟通技巧自动评估的研究奠定了基础。
🔬 方法详解
问题定义:本研究旨在解决医学OSCE(Objective Structured Clinical Examination)中面试环节评分耗时且易受主观偏见影响的问题。现有的人工评分方法效率低,且评分标准难以统一,导致评估结果的可靠性和公平性受到挑战。
核心思路:研究的核心思路是利用大型语言模型(LLMs)的自然语言处理能力,模拟专家评分员的思维过程,自动对OSCE面试记录进行评分。通过设计不同的prompting策略,引导LLMs理解评分标准,并根据面试内容给出相应的评分。
技术框架:整体框架包括以下几个主要阶段:1) 数据准备:收集OSCE面试记录和专家评分数据,构建基准数据集。2) 模型选择:选择GPT-4o、Claude 3.5、Llama 3.1和Gemini 1.5 Pro等先进的LLMs。3) Prompting策略设计:设计零样本、思维链(CoT)、少样本和多步提示等多种prompting策略,引导LLMs进行评分。4) 模型评估:使用精确度、差一精确度和阈值精确度等指标,评估LLMs的评分性能,并与专家评分进行对比。
关键创新:本研究的关键创新在于:1) 系统性地探索了多种LLMs在OSCE面试评分中的应用潜力。2) 比较了多种prompting策略对LLMs评分性能的影响,并针对特定评估项目优化了prompting策略。3) 构建了包含专家共识评分的基准数据集,为LLMs的评估提供了可靠的依据。
关键设计:研究中采用了零温度参数,以确保LLMs评分的内部一致性。同时,针对不同的MIRS(Master Interview Rating Scale)项目,设计了不同的prompting策略,例如,对于需要推理的项目,采用思维链(CoT)prompting,引导LLMs逐步分析面试内容,给出合理的评分。
🖼️ 关键图片
📊 实验亮点
实验结果表明,LLMs在OSCE面试评分中具有潜力。虽然精确度较低(0.27至0.44),但差一精确度(0.67至0.87)和阈值精确度(0.75至0.88)达到中等到较高水平。GPT-4o在零温度参数下表现出较高的内部一致性(α = 0.98)。针对特定评估项目优化prompting策略可以显著提高评分准确性。
🎯 应用场景
该研究成果可应用于医学教育领域,实现OSCE面试评分的自动化,提高评估效率和公平性。此外,该方法也可推广到其他需要评估沟通技巧的场景,例如招聘面试、客户服务等,具有广泛的应用前景和实际价值。未来,可以进一步研究如何利用LLMs提供个性化的反馈,帮助学生提高沟通技巧。
📄 摘要(原文)
Objective Structured Clinical Examinations (OSCEs) are widely used to assess medical students' communication skills, but scoring interview-based assessments is time-consuming and potentially subject to human bias. This study explored the potential of large language models (LLMs) to automate OSCE evaluations using the Master Interview Rating Scale (MIRS). We compared the performance of four state-of-the-art LLMs (GPT-4o, Claude 3.5, Llama 3.1, and Gemini 1.5 Pro) in evaluating OSCE transcripts across all 28 items of the MIRS under the conditions of zero-shot, chain-of-thought (CoT), few-shot, and multi-step prompting. The models were benchmarked against a dataset of 10 OSCE cases with 174 expert consensus scores available. Model performance was measured using three accuracy metrics (exact, off-by-one, thresholded). Averaging across all MIRS items and OSCE cases, LLMs performed with low exact accuracy (0.27 to 0.44), and moderate to high off-by-one accuracy (0.67 to 0.87) and thresholded accuracy (0.75 to 0.88). A zero temperature parameter ensured high intra-rater reliability (α = 0.98 for GPT-4o). CoT, few-shot, and multi-step techniques proved valuable when tailored to specific assessment items. The performance was consistent across MIRS items, independent of encounter phases and communication domains. We demonstrated the feasibility of AI-assisted OSCE evaluation and provided benchmarking of multiple LLMs across multiple prompt techniques. Our work provides a baseline performance assessment for LLMs that lays a foundation for future research into automated assessment of clinical communication skills.