Large Language Models in Medical Term Classification and Unexpected Misalignment Between Response and Reasoning

作者: Xiaodan Zhang, Sandeep Vemulapalli, Nabasmita Talukdar, Sumyeong Ahn, Jiankun Wang, Han Meng, Sardar Mehtab Bin Murtaza, Aakash Ajay Dave, Dmitry Leshchiner, Dimitri F. Joseph, Martin Witteveen-Lane, Dave Chesla, Jiayu Zhou, Bin Chen

分类: cs.CL, cs.AI, cs.LG

发布日期: 2023-12-19

💡 一句话要点

评估大型语言模型在医疗术语分类中的能力，并发现响应与推理之间意外的不一致性。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 医疗术语分类 轻度认知障碍 响应推理一致性 MIMIC数据库

📋 核心要点

现有方法难以保证大型语言模型在医疗诊断中的准确性和可解释性，尤其是在处理复杂医疗文本时。
本研究通过评估多种LLM在MCI识别任务中的表现，并分析其推理过程，揭示响应与推理不一致的问题。
实验表明，GPT-4在复杂提示下表现出更强的解释能力，但同时也存在响应与推理不一致的情况，开源模型则缺乏解释性。

📝 摘要（中文）

本研究评估了包括GPT-3.5、GPT-4、Falcon和LLaMA 2在内的先进大型语言模型（LLM）从出院总结中识别轻度认知障碍（MCI）患者的能力，并检查了模型响应与其推理不一致的实例。研究使用了MIMIC-IV v2.2数据库，重点关注65岁及以上的患者，并对照ICD代码和专家评估验证了MCI诊断。数据以7:2:1的比例划分为训练集、验证集和测试集，用于模型微调和评估，并使用来自MIMIC III的转移性癌症数据集进一步评估推理一致性。GPT-4表现出卓越的解释能力，尤其是在响应复杂提示时，但显示出显著的响应-推理不一致性。相比之下，Falcon和LLaMA 2等开源模型实现了高精度，但缺乏解释性推理，突出了进一步研究以优化性能和可解释性的必要性。该研究强调了提示工程的重要性，以及进一步探索GPT-4中观察到的意外推理-响应不一致性的必要性。结果表明，将LLM纳入医疗诊断具有前景，但需要方法上的进步，以确保AI生成输出的准确性和临床一致性，从而提高LLM在医疗决策中的可信度。

🔬 方法详解

问题定义：本研究旨在评估大型语言模型（LLM）在医疗术语分类任务中的性能，具体而言，是从出院总结中识别患有轻度认知障碍（MCI）的患者。现有方法的痛点在于，LLM在医疗领域的应用面临着准确性和可解释性的挑战，尤其是在响应与推理一致性方面存在问题。

核心思路：核心思路是利用MIMIC-IV数据库中的真实医疗数据，对多种LLM进行微调和评估，并重点分析模型在进行MCI识别时，其响应是否与其推理过程相符。通过对比不同模型的表现，揭示LLM在医疗应用中存在的潜在问题，并为后续研究提供指导。

技术框架：研究的技术框架主要包括以下几个阶段：1) 数据准备：从MIMIC-IV数据库中提取65岁及以上患者的出院总结，并根据ICD代码和专家评估验证MCI诊断。2) 数据划分：将数据划分为训练集、验证集和测试集，比例为7:2:1。3) 模型选择与微调：选择GPT-3.5、GPT-4、Falcon和LLaMA 2等LLM，并使用训练集进行微调。4) 模型评估：使用验证集和测试集评估模型的性能，并分析模型的响应与推理一致性。

关键创新：本研究的关键创新在于发现了GPT-4等先进LLM在医疗术语分类任务中，其响应与其推理过程之间存在意外的不一致性。这种不一致性可能会导致模型在医疗决策中产生误导性结果，从而降低其可信度。

关键设计：研究的关键设计包括：1) 使用MIMIC-IV数据库中的真实医疗数据，保证了研究的实际意义。2) 对比多种LLM的性能，揭示了不同模型在医疗应用中的优缺点。3) 重点分析模型的响应与推理一致性，发现了潜在的问题。4) 使用转移性癌症数据集进一步评估推理一致性。

📊 实验亮点

GPT-4在复杂提示下表现出更强的解释能力，但在响应与推理一致性方面存在问题。Falcon和LLaMA 2等开源模型实现了高精度，但缺乏解释性推理。研究强调了提示工程的重要性，并揭示了LLM在医疗应用中存在的潜在风险。

🎯 应用场景

该研究成果可应用于医疗诊断辅助系统，帮助医生更准确地识别MCI患者。通过提升LLM在医疗领域的准确性和可解释性，可以提高医疗决策的效率和质量。未来，该研究可扩展到其他疾病的诊断和治疗，为构建更智能、更可靠的医疗AI系统奠定基础。

📄 摘要（原文）

This study assesses the ability of state-of-the-art large language models (LLMs) including GPT-3.5, GPT-4, Falcon, and LLaMA 2 to identify patients with mild cognitive impairment (MCI) from discharge summaries and examines instances where the models' responses were misaligned with their reasoning. Utilizing the MIMIC-IV v2.2 database, we focused on a cohort aged 65 and older, verifying MCI diagnoses against ICD codes and expert evaluations. The data was partitioned into training, validation, and testing sets in a 7:2:1 ratio for model fine-tuning and evaluation, with an additional metastatic cancer dataset from MIMIC III used to further assess reasoning consistency. GPT-4 demonstrated superior interpretative capabilities, particularly in response to complex prompts, yet displayed notable response-reasoning inconsistencies. In contrast, open-source models like Falcon and LLaMA 2 achieved high accuracy but lacked explanatory reasoning, underscoring the necessity for further research to optimize both performance and interpretability. The study emphasizes the significance of prompt engineering and the need for further exploration into the unexpected reasoning-response misalignment observed in GPT-4. The results underscore the promise of incorporating LLMs into healthcare diagnostics, contingent upon methodological advancements to ensure accuracy and clinical coherence of AI-generated outputs, thereby improving the trustworthiness of LLMs for medical decision-making.

Large Language Models in Medical Term Classification and Unexpected Misalignment Between Response and Reasoning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册