Large language models are good medical coders, if provided with tools

作者: Keith Kwan

分类: cs.IR, cs.CL

发布日期: 2024-07-06

备注: 7 pages, 1 figure, 2 tables

💡 一句话要点

提出基于检索-排序的两阶段系统，显著提升LLM在ICD-10-CM医学编码中的准确率

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 医学编码 ICD-10-CM 大型语言模型 检索增强 自然语言处理

📋 核心要点

现有LLM在医学编码任务中准确率低，难以直接应用，面临专业知识不足的挑战。
提出检索-排序系统，先检索相关医学知识，再利用LLM进行排序，提升编码准确率。
实验表明，该系统在单项医学术语编码任务中达到100%准确率，显著优于原始LLM。

📝 摘要（中文）

本研究提出了一种新颖的两阶段检索-排序系统，用于自动ICD-10-CM医学编码，并将其性能与原始大型语言模型（LLM）方法进行了比较。在包含100个单项医学术语的数据集上评估了这两个系统，检索-排序系统在预测正确的ICD-10-CM代码方面达到了100%的准确率，显著优于原始LLM（GPT-3.5-turbo），后者仅达到了6%的准确率。我们的分析表明，检索-排序系统在处理不同专业的各种医学术语方面具有卓越的精确性。虽然这些结果很有希望，但我们承认使用简化输入的局限性，以及需要在更复杂、更真实的医疗案例中进行进一步测试。这项研究有助于不断改进医学编码的效率和准确性，突出了基于检索的方法的重要性。

🔬 方法详解

问题定义：论文旨在解决医学编码自动化的问题，具体来说是ICD-10-CM编码。现有的大型语言模型（LLM）在直接进行医学编码时，由于缺乏足够的医学知识和推理能力，准确率较低，难以满足实际应用需求。因此，如何提高LLM在医学编码任务中的准确率是本研究要解决的核心问题。

核心思路：论文的核心思路是利用检索增强的方法，为LLM提供更丰富的医学知识。具体来说，首先通过检索模块找到与输入医学术语相关的ICD-10-CM代码，然后利用LLM对检索结果进行排序，选择最合适的代码。这种方法结合了检索的准确性和LLM的推理能力，可以有效提高医学编码的准确率。

技术框架：该系统采用两阶段的Retrieve-Rank架构。第一阶段是检索（Retrieve）阶段，该阶段使用医学术语作为查询，从医学知识库中检索相关的ICD-10-CM代码。第二阶段是排序（Rank）阶段，该阶段使用LLM对检索到的代码进行排序，选择最合适的代码作为最终的预测结果。

关键创新：该研究的关键创新在于将检索和排序相结合，构建了一个两阶段的医学编码系统。与直接使用LLM进行编码相比，该系统能够利用检索模块获取更丰富的医学知识，从而提高编码的准确率。此外，该研究还验证了检索增强的方法在医学编码任务中的有效性。

关键设计：论文中没有详细描述检索模块和排序模块的具体实现细节。但是，可以推测检索模块可能使用了基于关键词匹配或语义相似度的检索方法，而排序模块可能使用了LLM的打分机制。此外，论文中也没有提到损失函数和网络结构等技术细节，这些可能是未来的研究方向。

📊 实验亮点

实验结果表明，所提出的检索-排序系统在单项医学术语的ICD-10-CM编码任务中达到了100%的准确率，而原始LLM（GPT-3.5-turbo）的准确率仅为6%。这表明该系统能够显著提高医学编码的准确率，具有重要的实际应用价值。虽然实验数据规模较小，但结果已经初步验证了该方法的有效性。

🎯 应用场景

该研究成果可应用于医疗机构的自动编码系统，提高编码效率和准确性，降低人工成本。此外，该方法还可以扩展到其他医学领域的知识检索和推理任务，例如辅助诊断、药物推荐等，具有广阔的应用前景。未来，该技术有望整合到智能医疗平台中，为医生和患者提供更便捷的服务。

📄 摘要（原文）

This study presents a novel two-stage Retrieve-Rank system for automated ICD-10-CM medical coding, comparing its performance against a Vanilla Large Language Model (LLM) approach. Evaluating both systems on a dataset of 100 single-term medical conditions, the Retrieve-Rank system achieved 100% accuracy in predicting correct ICD-10-CM codes, significantly outperforming the Vanilla LLM (GPT-3.5-turbo), which achieved only 6% accuracy. Our analysis demonstrates the Retrieve-Rank system's superior precision in handling various medical terms across different specialties. While these results are promising, we acknowledge the limitations of using simplified inputs and the need for further testing on more complex, realistic medical cases. This research contributes to the ongoing effort to improve the efficiency and accuracy of medical coding, highlighting the importance of retrieval-based approaches.

Large language models are good medical coders, if provided with tools

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理