Intelligent Documentation in Medical Education: Can AI Replace Manual Case Logging?
作者: Nafiz Imtiaz Khan, Kylie Cleland, Vladimir Filkov, Roger Eric Goldman
分类: cs.CL, cs.AI
发布日期: 2026-01-19
备注: 51 pages, 12 figures, 8 tables. Feasibility study using retrospective radiology reports. Submitted to JAMIA Open (under review)
💡 一句话要点
利用大型语言模型自动生成放射学病例记录,减轻医生负担并提高一致性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 医学教育 病例记录 放射学 自然语言处理
📋 核心要点
- 放射科培训中的病例记录耗时且易出错,手动记录方式难以保证一致性。
- 利用大型语言模型从放射学报告中自动提取结构化信息,生成病例记录。
- 实验结果表明,LLM在病例信息提取方面表现出色,F1分数最高可达0.87。
📝 摘要(中文)
本研究探讨了大型语言模型(LLM)是否能直接从自由文本放射学报告中自动生成程序性病例记录,以解决放射科培训中病例记录耗时且手动记录不一致的问题。研究评估了多个本地和商业LLM,采用基于指令和思维链提示的方法,从2018年至2024年间九名住院医师撰写的414份介入放射学报告中提取结构化程序信息。使用敏感性、特异性和F1分数评估模型性能,同时考虑推理延迟和token效率以估计运营成本。结果表明,本地和商业模型均实现了强大的提取性能,最佳F1分数接近0.87,并在速度和成本之间表现出不同的权衡。使用LLM进行自动化有潜力大幅减轻学员的文书负担,并提高病例记录的一致性。这些发现证明了AI辅助文档在医学教育中的可行性,并强调需要在机构和临床工作流程中进一步验证。
🔬 方法详解
问题定义:本研究旨在解决放射科医生在培训期间手动记录病例信息的痛点。手动记录耗时费力,且不同医生之间的记录标准不一致,导致数据质量参差不齐。现有的解决方案缺乏自动化手段,无法有效减轻医生的文书负担。
核心思路:论文的核心思路是利用大型语言模型(LLM)的自然语言理解和生成能力,直接从放射学报告的自由文本中提取结构化的病例信息,从而实现病例记录的自动化生成。这种方法旨在减少人工干预,提高记录效率和一致性。
技术框架:研究采用基于指令和思维链提示(Chain-of-Thought prompting)的方法,指导LLM从放射学报告中提取关键信息。整体流程包括:1)收集和整理放射学报告;2)选择和配置LLM(包括本地和商业模型);3)设计合适的提示语,引导LLM提取结构化信息;4)评估模型性能,包括敏感性、特异性和F1分数等指标。
关键创新:该研究的关键创新在于将大型语言模型应用于医学教育领域的病例记录自动化。与传统的基于规则或模板的提取方法相比,LLM能够更好地理解自由文本的语义信息,从而更准确地提取病例信息。此外,研究还比较了不同LLM在性能、速度和成本方面的差异,为实际应用提供了参考。
关键设计:研究中使用了两种类型的提示策略:基于指令的提示和思维链提示。思维链提示通过引导LLM逐步推理,提高了信息提取的准确性。此外,研究还考虑了不同LLM的token效率和推理延迟,以评估其运营成本。具体使用的LLM型号和参数设置在论文中未明确说明,属于未知信息。
📊 实验亮点
研究结果表明,无论是本地部署还是商业化的大型语言模型,都能在放射学报告信息提取任务中表现出强大的性能。最佳模型的F1分数接近0.87,证明了LLM在自动化病例记录方面的潜力。研究还对比了不同模型在速度和成本上的差异,为实际应用提供了参考依据。
🎯 应用场景
该研究成果可应用于医学教育领域,帮助放射科医生自动生成病例记录,减轻文书负担,提高记录效率和一致性。此外,该方法还可推广到其他医学领域,例如病理学、内科学等,实现医疗文档的自动化处理,提升医疗服务质量和效率。未来,结合电子病历系统,可实现更智能化的病例管理和分析。
📄 摘要(原文)
Procedural case logs are a core requirement in radiology training, yet they are time-consuming to complete and prone to inconsistency when authored manually. This study investigates whether large language models (LLMs) can automate procedural case log documentation directly from free-text radiology reports. We evaluate multiple local and commercial LLMs under instruction-based and chain-of-thought prompting to extract structured procedural information from 414 curated interventional radiology reports authored by nine residents between 2018 and 2024. Model performance is assessed using sensitivity, specificity, and F1-score, alongside inference latency and token efficiency to estimate operational cost. Results show that both local and commercial models achieve strong extraction performance, with best F1-scores approaching 0.87, while exhibiting different trade-offs between speed and cost. Automation using LLMs has the potential to substantially reduce clerical burden for trainees and improve consistency in case logging. These findings demonstrate the feasibility of AI-assisted documentation in medical education and highlight the need for further validation across institutions and clinical workflows.