From large language models to multimodal AI: A scoping review on the potential of generative AI in medicine

作者: Lukas Buess, Matthias Keicher, Nassir Navab, Andreas Maier, Soroosh Tayebi Arasteh

分类: cs.AI

发布日期: 2025-02-13

期刊: Biomed. Eng. Lett. 15 (2025)

DOI: 10.1007/s13534-025-00497-1

💡 一句话要点

综述性研究：大型语言模型到多模态AI在医学领域的应用与潜力

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态AI 医学影像 自然语言处理 临床决策支持 生成式AI 综述研究 深度学习

📋 核心要点

现有医学AI方法在整合多种数据模态方面存在不足，限制了其在复杂临床场景中的应用。
该综述旨在全面评估多模态AI在医学领域的应用，分析其方法、数据集和评估方式。
通过系统性文献回顾，揭示了多模态AI在诊断、报告生成和药物发现等方面的潜力与挑战。

📝 摘要（中文）

生成式人工智能（AI）模型，如扩散模型和OpenAI的ChatGPT，正在通过提高诊断准确性和自动化临床工作流程来变革医学。该领域发展迅速，从仅处理文本的大型语言模型发展到能够整合包括影像、文本和结构化数据等多种数据模态的多模态AI系统。这些技术的多样性以及日益增长的兴趣，突显了全面回顾其应用和潜力的必要性。本综述探讨了多模态AI的演变，重点介绍了其方法、应用、数据集和在临床环境中的评估。遵循PRISMA-ScR指南，我们系统地查询了PubMed、IEEE Xplore和Web of Science，优先考虑了截至2024年底的最新研究。经过严格筛选，纳入了144篇论文，揭示了该动态领域的关键趋势和挑战。我们的研究结果强调了从单模态到多模态方法的转变，推动了诊断支持、医疗报告生成、药物发现和对话式AI的创新。然而，仍然存在关键挑战，包括异构数据类型的集成、提高模型可解释性、解决伦理问题以及在真实临床环境中验证AI系统。本综述总结了当前的技术水平，确定了关键差距，并提供了指导开发可扩展、可信赖且具有临床影响力的医疗保健多模态AI解决方案的见解。

🔬 方法详解

问题定义：医学领域面临着数据异构性高、信息孤岛现象严重的问题。传统的单模态AI方法无法充分利用不同类型的数据，例如影像、文本和结构化数据，导致诊断和治疗决策的准确性和效率受到限制。现有方法在模型的可解释性、伦理考量和临床验证方面也存在不足。

核心思路：本综述的核心思路是通过系统性地回顾和分析已发表的文献，全面了解多模态AI在医学领域的应用现状、发展趋势和面临的挑战。通过整合不同研究的发现，识别关键技术、数据集和评估方法，为未来的研究和应用提供指导。

技术框架：该综述遵循PRISMA-ScR指南，系统地检索了PubMed、IEEE Xplore和Web of Science等数据库。筛选过程包括标题和摘要筛选、全文评估和数据提取。最终纳入的144篇论文涵盖了多模态AI在诊断支持、医疗报告生成、药物发现和对话式AI等方面的应用。

关键创新：该综述的关键创新在于其全面性和系统性。它不仅总结了多模态AI在医学领域的现有应用，还深入分析了其面临的挑战，例如数据集成、模型可解释性、伦理问题和临床验证。此外，该综述还识别了未来的研究方向，例如开发可扩展、可信赖且具有临床影响力的多模态AI解决方案。

关键设计：该综述的关键设计在于其严格的筛选标准和数据提取方法。为了确保研究的质量和可靠性，研究人员采用了明确的纳入和排除标准，并使用标准化的数据提取表格来收集相关信息。此外，研究人员还对纳入的研究进行了质量评估，以识别潜在的偏倚风险。

🖼️ 关键图片

📊 实验亮点

该综述纳入了144篇相关论文，揭示了医学领域多模态AI研究的关键趋势，包括从单模态到多模态方法的转变，以及在诊断支持、医疗报告生成、药物发现和对话式AI等方面的创新应用。研究强调了数据集成、模型可解释性和临床验证等关键挑战，为未来的研究方向提供了重要参考。

🎯 应用场景

该研究为医学领域的多模态AI应用提供了全面的蓝图，可应用于疾病诊断、个性化治疗方案制定、药物研发和患者沟通等多个方面。通过整合不同类型的数据，有望提高诊断准确性、优化治疗效果并改善患者体验。未来的发展将推动医疗保健的智能化和个性化。

📄 摘要（原文）

Generative artificial intelligence (AI) models, such as diffusion models and OpenAI's ChatGPT, are transforming medicine by enhancing diagnostic accuracy and automating clinical workflows. The field has advanced rapidly, evolving from text-only large language models for tasks such as clinical documentation and decision support to multimodal AI systems capable of integrating diverse data modalities, including imaging, text, and structured data, within a single model. The diverse landscape of these technologies, along with rising interest, highlights the need for a comprehensive review of their applications and potential. This scoping review explores the evolution of multimodal AI, highlighting its methods, applications, datasets, and evaluation in clinical settings. Adhering to PRISMA-ScR guidelines, we systematically queried PubMed, IEEE Xplore, and Web of Science, prioritizing recent studies published up to the end of 2024. After rigorous screening, 144 papers were included, revealing key trends and challenges in this dynamic field. Our findings underscore a shift from unimodal to multimodal approaches, driving innovations in diagnostic support, medical report generation, drug discovery, and conversational AI. However, critical challenges remain, including the integration of heterogeneous data types, improving model interpretability, addressing ethical concerns, and validating AI systems in real-world clinical settings. This review summarizes the current state of the art, identifies critical gaps, and provides insights to guide the development of scalable, trustworthy, and clinically impactful multimodal AI solutions in healthcare.

From large language models to multimodal AI: A scoping review on the potential of generative AI in medicine

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理