AI-MASLD Metabolic Dysfunction and Information Steatosis of Large Language Models in Unstructured Clinical Narratives
作者: Yuan Shen, Xiaojun Wu, Linghua Yu
分类: cs.AI
发布日期: 2025-12-12
备注: 47 pages, 2 figures
💡 一句话要点
揭示大语言模型在非结构化临床叙述中存在的“AI-MASLD”代谢功能障碍
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 临床信息提取 医疗人工智能 代谢功能障碍 AI-MASLD
📋 核心要点
- 现有大语言模型在处理真实临床场景下,包含噪声和冗余信息的患者主诉时,提取核心医疗信息的能力有待考量。
- 该研究提出“AI-MASLD”概念,类比代谢功能障碍,评估LLM在处理临床信息时的功能衰退现象。
- 实验结果表明,不同LLM在噪声环境下表现出不同程度的功能缺陷,强调了在医疗领域应用LLM时需要人工监督。
📝 摘要(中文)
本研究旨在模拟真实临床场景,系统评估大型语言模型(LLMs)从充满噪声和冗余的患者主诉中提取核心医疗信息的能力,并验证它们是否表现出类似于代谢功能障碍相关脂肪性肝病(MASLD)的功能衰退。我们采用基于标准化医疗探针的横断面分析设计,选择GPT-4o、Gemini 2.5、DeepSeek 3.1和Qwen3-Max作为研究对象。使用包含五个核心维度的二十个医疗探针的评估系统来模拟真实的临床沟通环境。所有探针都有临床专家定义的金标准答案,并通过两位独立临床医生的双盲、逆向评分量表进行评估。结果表明,所有测试模型都表现出不同程度的功能缺陷,其中Qwen3-Max表现出最佳的整体性能,而Gemini 2.5表现最差。在极端噪声条件下,大多数模型都经历了功能崩溃。值得注意的是,GPT-4o在深静脉血栓形成(DVT)继发的肺栓塞(PE)的风险评估中做出了严重的误判。这项研究首次通过实验证实,LLMs在处理临床信息时表现出类似于代谢功能障碍的特征,提出了“AI-代谢功能障碍相关脂肪性肝病(AI-MASLD)”的创新概念。这些发现为人工智能(AI)在医疗保健领域的应用提供了重要的安全警告,强调当前的LLMs必须在人类专家监督下用作辅助工具,因为它们的理论知识与实际临床应用之间仍然存在显著差距。
🔬 方法详解
问题定义:论文旨在评估大型语言模型(LLMs)在处理真实临床场景中,包含噪声和冗余信息的非结构化患者主诉时,提取核心医疗信息的能力。现有方法缺乏对LLM在复杂临床信息处理中潜在功能障碍的系统性评估,可能导致误诊或风险评估错误。
核心思路:论文的核心思路是将LLMs的信息处理能力类比于人体代谢功能,提出“AI-MASLD”的概念,即AI代谢功能障碍相关脂肪性肝病。通过模拟真实临床场景,评估LLMs在处理噪声和冗余信息时的表现,从而揭示其潜在的功能缺陷。
技术框架:该研究采用横断面分析设计,主要流程包括:1) 选择主流LLMs(GPT-4o, Gemini 2.5, DeepSeek 3.1, Qwen3-Max)作为研究对象;2) 构建包含五个核心维度的二十个医疗探针的评估系统,模拟真实的临床沟通环境;3) 由临床专家定义每个探针的金标准答案;4) 通过两位独立临床医生的双盲、逆向评分量表对LLMs的回答进行评估。
关键创新:该研究最重要的技术创新点在于首次提出了“AI-MASLD”的概念,将LLMs的信息处理能力与人体代谢功能进行类比,为评估LLMs在医疗领域的应用风险提供了一个新的视角。此外,该研究还构建了一个包含噪声和冗余信息的临床场景模拟环境,更贴近实际应用。
关键设计:评估系统包含五个核心维度(具体维度未知),每个维度包含多个医疗探针。采用双盲、逆向评分量表,由两位独立临床医生进行评估,以保证评估的客观性和可靠性。论文中提到在极端噪声条件下测试模型,但未详细说明噪声的具体添加方式和强度。
📊 实验亮点
实验结果表明,所有测试模型都表现出不同程度的功能缺陷,其中Qwen3-Max表现出最佳的整体性能,而Gemini 2.5表现最差。在极端噪声条件下,大多数模型都经历了功能崩溃。值得注意的是,GPT-4o在深静脉血栓形成(DVT)继发的肺栓塞(PE)的风险评估中做出了严重的误判,突显了LLMs在关键医疗决策中存在的潜在风险。
🎯 应用场景
该研究成果可应用于评估和改进LLMs在医疗领域的应用,例如辅助诊断、风险评估和患者咨询。通过识别LLMs的“AI-MASLD”特征,可以更好地了解其局限性,从而在实际应用中采取更谨慎的策略,确保患者安全。研究结果也为未来开发更可靠、更安全的医疗AI系统提供了指导。
📄 摘要(原文)
This study aims to simulate real-world clinical scenarios to systematically evaluate the ability of Large Language Models (LLMs) to extract core medical information from patient chief complaints laden with noise and redundancy, and to verify whether they exhibit a functional decline analogous to Metabolic Dysfunction-Associated Steatotic Liver Disease (MASLD). We employed a cross-sectional analysis design based on standardized medical probes, selecting four mainstream LLMs as research subjects: GPT-4o, Gemini 2.5, DeepSeek 3.1, and Qwen3-Max. An evaluation system comprising twenty medical probes across five core dimensions was used to simulate a genuine clinical communication environment. All probes had gold-standard answers defined by clinical experts and were assessed via a double-blind, inverse rating scale by two independent clinicians. The results show that all tested models exhibited functional defects to varying degrees, with Qwen3-Max demonstrating the best overall performance and Gemini 2.5 the worst. Under conditions of extreme noise, most models experienced a functional collapse. Notably, GPT-4o made a severe misjudgment in the risk assessment for pulmonary embolism (PE) secondary to deep vein thrombosis (DVT). This research is the first to empirically confirm that LLMs exhibit features resembling metabolic dysfunction when processing clinical information, proposing the innovative concept of "AI-Metabolic Dysfunction-Associated Steatotic Liver Disease (AI-MASLD)". These findings offer a crucial safety warning for the application of Artificial Intelligence (AI) in healthcare, emphasizing that current LLMs must be used as auxiliary tools under human expert supervision, as there remains a significant gap between their theoretical knowledge and practical clinical application.