Large Language Models as Medical Codes Selectors: a benchmark using the International Classification of Primary Care

作者: Vinicius Anjos de Almeida, Vinicius de Camargo, Raquel Gómez-Bravo, Egbert van der Haring, Kees van Boven, Marcelo Finger, Luis Fernandez Lopez

分类: cs.CL

发布日期: 2025-07-19 (更新: 2025-11-01)

备注: Accepted at NeurIPS 2025 as a poster presentation in The Second Workshop on GenAI for Health: Potential, Trust, and Policy Compliance (https://openreview.net/forum?id=Kl7KZwJFEG). 33 pages, 10 figures (including appendix), 15 tables (including appendix). To be submitted to peer-reviewed journal. For associated code repository, see https://github.com/almeidava93/llm-as-code-selectors-paper

💡 一句话要点

利用大型语言模型作为医学编码选择器：基于ICPC的基准测试

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 医学编码 ICPC-2 语义搜索 自然语言处理

📋 核心要点

医学编码对医疗数据进行结构化，以用于研究、质量监控和政策制定，但现有方法效率较低，需要自动化。
该研究利用大型语言模型（LLMs）结合语义搜索，从候选集中选择最佳匹配的ICPC-2医学编码。
实验结果表明，多个LLM在ICPC-2编码任务上表现出色，F1分数超过0.8，证明了LLM在该领域的潜力。

📝 摘要（中文）

本研究评估了大型语言模型（LLMs）在分配ICPC-2编码方面的潜力，利用领域特定的搜索引擎的输出。使用包含437个巴西葡萄牙语临床表达式的数据集，每个表达式都用ICPC-2代码进行注释。语义搜索引擎（OpenAI的text-embedding-3-large）从73563个标记概念中检索候选结果。使用每个查询和检索到的结果提示三十三个LLM，以选择最佳匹配的ICPC-2代码。使用F1分数评估性能，以及token使用量、成本、响应时间和格式一致性。结果表明，28个模型的F1分数> 0.8；10个模型超过0.85。表现最佳的模型包括gpt-4.5-preview、o3和gemini-2.5-pro。检索器优化可以将性能提高多达4个点。大多数模型以预期的格式返回有效的代码，减少了幻觉。较小的模型（<3B）在格式化和输入长度方面存在困难。结论是，即使没有微调，LLM也显示出自动执行ICPC-2编码的强大潜力。这项工作提供了一个基准并突出了挑战，但研究结果受到数据集范围和设置的限制。需要更广泛、多语言、端到端的评估来进行临床验证。

🔬 方法详解

问题定义：论文旨在解决医学编码自动化的问题，特别是ICPC-2编码。现有方法依赖于人工或传统的规则引擎，效率低且易出错。大型语言模型在理解和生成文本方面展现出强大的能力，但其在医学编码领域的应用潜力尚未充分探索。

核心思路：论文的核心思路是利用大型语言模型（LLMs）作为医学编码选择器。首先，使用语义搜索引擎从大量的医学概念中检索候选编码。然后，利用LLM对检索到的候选编码进行排序和选择，从而实现自动化的ICPC-2编码。这种方法结合了语义搜索的效率和LLM的理解能力。

技术框架：整体框架包括以下几个主要步骤：1) 构建包含临床表达式和ICPC-2编码的数据集；2) 使用OpenAI的text-embedding-3-large模型作为语义搜索引擎，检索与临床表达式相关的候选ICPC-2编码；3) 使用不同的LLM（如gpt-4.5-preview, o3, gemini-2.5-pro）对检索到的候选编码进行排序和选择；4) 使用F1分数、token使用量、成本、响应时间和格式一致性等指标评估LLM的性能。

关键创新：该研究的关键创新在于将大型语言模型应用于医学编码选择任务，并构建了一个基准测试。与传统的规则引擎或机器学习方法相比，LLM能够更好地理解临床表达式的语义，并选择更准确的ICPC-2编码。此外，该研究还评估了不同LLM在医学编码任务上的性能，并分析了检索器优化对性能的影响。

关键设计：研究中使用了OpenAI的text-embedding-3-large模型进行语义搜索，该模型能够将临床表达式和ICPC-2编码映射到同一个语义空间。在LLM的选择方面，研究选择了多个不同规模和架构的LLM，以评估它们在医学编码任务上的性能。在评估指标方面，研究使用了F1分数来衡量编码的准确性，并使用token使用量、成本和响应时间来衡量LLM的效率。

🖼️ 关键图片

📊 实验亮点

实验结果表明，多个大型语言模型在ICPC-2编码任务上表现出色，其中gpt-4.5-preview、o3和gemini-2.5-pro等模型的F1分数超过0.85。检索器优化可以将性能提高多达4个点。此外，大多数模型能够以预期的格式返回有效的代码，减少了幻觉现象。这些结果表明，LLM在医学编码领域具有巨大的潜力。

🎯 应用场景

该研究成果可应用于医疗数据管理、临床决策支持和医疗质量监控等领域。通过自动化ICPC-2编码，可以提高医疗数据的标准化程度，降低人工编码的成本和错误率，并为医疗研究和政策制定提供更可靠的数据基础。未来，该技术有望扩展到其他医学编码体系和语言，实现更广泛的应用。

📄 摘要（原文）

Background: Medical coding structures healthcare data for research, quality monitoring, and policy. This study assesses the potential of large language models (LLMs) to assign ICPC-2 codes using the output of a domain-specific search engine. Methods: A dataset of 437 Brazilian Portuguese clinical expressions, each annotated with ICPC-2 codes, was used. A semantic search engine (OpenAI's text-embedding-3-large) retrieved candidates from 73,563 labeled concepts. Thirty-three LLMs were prompted with each query and retrieved results to select the best-matching ICPC-2 code. Performance was evaluated using F1-score, along with token usage, cost, response time, and format adherence. Results: Twenty-eight models achieved F1-score > 0.8; ten exceeded 0.85. Top performers included gpt-4.5-preview, o3, and gemini-2.5-pro. Retriever optimization can improve performance by up to 4 points. Most models returned valid codes in the expected format, with reduced hallucinations. Smaller models (<3B) struggled with formatting and input length. Conclusions: LLMs show strong potential for automating ICPC-2 coding, even without fine-tuning. This work offers a benchmark and highlights challenges, but findings are limited by dataset scope and setup. Broader, multilingual, end-to-end evaluations are needed for clinical validation.

Large Language Models as Medical Codes Selectors: a benchmark using the International Classification of Primary Care

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理