Position: Thematic Analysis of Unstructured Clinical Transcripts with Large Language Models
作者: Seungjun Yi, Joakim Nguyen, Terence Lim, Andrew Well, Joseph Skrovan, Mehak Beri, YongGeon Lee, Kavita Radhakrishnan, Liu Leqi, Mia Markey, Ying Ding
分类: cs.CL
发布日期: 2025-09-18 (更新: 2025-09-28)
备注: Presented at GenAI4Health @ NeurIPS 2025
💡 一句话要点
利用大型语言模型进行非结构化临床记录的主题分析,并提出标准化评估框架。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 主题分析 临床记录 评估框架 医疗健康
📋 核心要点
- 现有主题分析方法在临床记录处理中面临资源密集和评估标准不统一的挑战。
- 论文核心在于利用大型语言模型辅助主题分析,并提出一个三维评估框架。
- 通过系统回顾和临床医生访谈,强调了标准化评估在推进该领域中的重要性。
📝 摘要(中文)
本文探讨了大型语言模型(LLM)如何支持非结构化临床记录的主题分析。主题分析是一种广泛使用但资源密集的方法,用于发现患者和提供者叙述中的模式。我们系统地回顾了近期将LLM应用于主题分析的研究,并采访了一位临床医生。研究结果表明,当前的方法在多个维度上仍然是分散的,包括主题分析的类型、数据集、提示策略和使用的模型,尤其是在评估方面。现有的评估方法差异很大(从定性专家评审到自动相似性指标),阻碍了进展,并阻止了跨研究的有意义的基准测试。我们认为,建立标准化的评估实践对于推进该领域至关重要。为此,我们提出了一个以有效性、可靠性和可解释性三个维度为中心的评估框架。
🔬 方法详解
问题定义:论文旨在解决非结构化临床记录主题分析中,人工分析耗时耗力、现有基于LLM的方法评估标准不统一的问题。现有方法缺乏统一的评估标准,导致研究结果难以比较和复现,阻碍了该领域的进展。
核心思路:论文的核心思路是利用大型语言模型(LLM)自动化或半自动化地进行主题分析,并提出一个包含有效性、可靠性和可解释性三个维度的评估框架,以规范LLM在主题分析中的应用和评估。
技术框架:论文主要通过系统性文献回顾和临床医生访谈来构建其论点。首先,回顾了近期使用LLM进行主题分析的相关研究,分析了不同研究在主题分析类型、数据集、提示策略和模型选择上的差异。然后,通过与临床医生的访谈,了解了实际应用中的需求和挑战。最后,基于文献回顾和访谈结果,提出了一个三维评估框架。
关键创新:论文的关键创新在于提出了一个针对LLM主题分析的标准化评估框架,该框架包含有效性、可靠性和可解释性三个维度。这有助于解决当前研究中评估标准不统一的问题,促进研究结果的比较和复现,并推动该领域的发展。
关键设计:论文提出的评估框架包含三个维度:有效性(Validity)衡量LLM提取的主题是否准确反映了临床记录的内容;可靠性(Reliability)衡量LLM在不同运行或不同数据集上提取主题的一致性;可解释性(Interpretability)衡量LLM提取的主题是否易于理解和解释,以及是否能够提供支持主题提取的证据。
🖼️ 关键图片
📊 实验亮点
论文通过系统性回顾和临床医生访谈,揭示了当前LLM在主题分析应用中评估标准不统一的问题,并提出了一个包含有效性、可靠性和可解释性三个维度的评估框架,为未来研究提供了指导。
🎯 应用场景
该研究成果可应用于医疗健康领域,辅助临床医生和研究人员进行大规模临床记录的分析,加速疾病诊断、治疗方案优化和临床研究。标准化的评估框架有助于提升LLM在医疗领域的应用可靠性和可信度,促进医疗人工智能的发展。
📄 摘要(原文)
This position paper examines how large language models (LLMs) can support thematic analysis of unstructured clinical transcripts, a widely used but resource-intensive method for uncovering patterns in patient and provider narratives. We conducted a systematic review of recent studies applying LLMs to thematic analysis, complemented by an interview with a practicing clinician. Our findings reveal that current approaches remain fragmented across multiple dimensions including types of thematic analysis, datasets, prompting strategies and models used, most notably in evaluation. Existing evaluation methods vary widely (from qualitative expert review to automatic similarity metrics), hindering progress and preventing meaningful benchmarking across studies. We argue that establishing standardized evaluation practices is critical for advancing the field. To this end, we propose an evaluation framework centered on three dimensions: validity, reliability, and interpretability.