Advancing Conversational Diagnostic AI with Multimodal Reasoning
作者: Khaled Saab, Jan Freyberg, Chunjong Park, Tim Strother, Yong Cheng, Wei-Hung Weng, David G. T. Barrett, David Stutz, Nenad Tomasev, Anil Palepu, Valentin Liévin, Yash Sharma, Roma Ruparel, Abdullah Ahmed, Elahe Vedadi, Kimberly Kanada, Cian Hughes, Yun Liu, Geoff Brown, Yang Gao, Sean Li, S. Sara Mahdavi, James Manyika, Katherine Chou, Yossi Matias, Avinatan Hassidim, Dale R. Webster, Pushmeet Kohli, S. M. Ali Eslami, Joëlle Barral, Adam Rodman, Vivek Natarajan, Mike Schaekermann, Tao Tu, Alan Karthikesalingam, Ryutaro Tanno
分类: cs.CL, cs.AI, cs.CV, cs.LG
发布日期: 2025-05-06
💡 一句话要点
AMIE:基于多模态推理提升对话式诊断AI的性能
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 对话式AI 多模态推理 医疗诊断 远程医疗 Gemini 2.0 Flash
📋 核心要点
- 现有对话式诊断AI主要依赖纯语言交互,忽略了远程医疗中常见的多模态数据,限制了其在实际场景中的应用。
- 论文提出一种基于Gemini 2.0 Flash的、状态感知的对话框架,使AMIE能够收集、解释多模态数据并进行精确推理。
- 实验结果表明,AMIE在多模态和非多模态轴上均优于初级保健医生,尤其在诊断准确性方面有显著提升。
📝 摘要(中文)
大型语言模型(LLM)在进行诊断对话方面展现出巨大潜力,但评估主要局限于纯语言交互,这与远程医疗的实际需求不符。即时通讯平台允许临床医生和患者无缝上传和讨论多模态医学数据,但LLM在处理此类数据同时保持诊断对话能力的能力仍然未知。本文通过使Articulate Medical Intelligence Explorer (AMIE)具备收集和解释多模态数据并在咨询期间精确推理的能力,从而提升了其对话式诊断和管理性能。该系统利用Gemini 2.0 Flash,实现了一种状态感知的对话框架,其中对话流程由反映患者状态和演变诊断的中间模型输出动态控制。后续问题由患者状态的不确定性策略性地引导,从而形成更结构化的多模态病史采集过程,模拟经验丰富的临床医生。在一项随机、盲法的OSCE式研究中,我们将AMIE与初级保健医生(PCP)在基于聊天的患者模拟咨询中进行了比较。我们使用智能手机皮肤照片、心电图和临床文件PDF等数据,构建了105个涵盖不同病症和人口统计数据的评估场景。我们的评估标准评估了多模态能力和其他临床上有意义的方面,如病史采集、诊断准确性、管理推理、沟通和同理心。专家评估表明,AMIE在7/9个多模态轴和29/32个非多模态轴(包括诊断准确性)上优于PCP。结果表明多模态对话式诊断AI取得了明显进展,但实际应用还需要进一步研究。
🔬 方法详解
问题定义:现有的大型语言模型在对话式诊断中表现出潜力,但主要局限于文本交互,忽略了实际远程医疗场景中常见的多模态数据,如图像、心电图和临床文档。这限制了模型在真实临床环境中的应用,降低了诊断的准确性和全面性。现有方法无法有效整合和推理这些多模态信息,导致诊断结果可能不完整或不准确。
核心思路:论文的核心思路是增强对话式AI模型处理多模态数据的能力,使其能够像经验丰富的临床医生一样,通过分析图像、心电图等信息来辅助诊断。通过构建一个状态感知的对话框架,模型可以根据患者状态和诊断进展动态调整对话流程,主动询问相关问题,从而更全面地收集信息。这种设计旨在模拟临床医生的诊断过程,提高诊断的准确性和效率。
技术框架:该系统基于Articulate Medical Intelligence Explorer (AMIE),并利用Gemini 2.0 Flash。整体框架包含以下主要模块:1) 多模态数据输入模块:负责接收和处理来自不同来源的多模态数据,如文本、图像、心电图等。2) 状态感知对话管理模块:根据患者状态和诊断进展动态控制对话流程,决定下一步应该询问的问题。3) 诊断推理模块:基于收集到的信息进行诊断推理,给出诊断结果和治疗建议。4) 输出模块:将诊断结果和建议以清晰易懂的方式呈现给用户。
关键创新:最重要的技术创新点在于将多模态数据整合到对话式诊断流程中,并利用状态感知的对话管理策略来模拟临床医生的诊断过程。与现有方法相比,该方法能够更全面地收集信息,更准确地进行诊断推理。此外,通过动态调整对话流程,模型可以更有效地利用多模态数据,提高诊断的效率。
关键设计:该系统使用Gemini 2.0 Flash作为底层模型,并构建了一个状态感知的对话框架。对话流程由中间模型输出动态控制,这些输出反映了患者状态和演变的诊断。后续问题由这些患者状态的不确定性策略性地引导,从而形成更结构化的多模态病史采集过程。具体的技术细节包括如何将不同模态的数据进行融合,如何设计状态表示,以及如何训练模型以实现状态感知的对话管理。
🖼️ 关键图片
📊 实验亮点
在与初级保健医生的对比实验中,AMIE在7/9个多模态轴和29/32个非多模态轴上表现更优,包括诊断准确性。这表明AMIE在处理多模态数据和进行诊断推理方面具有显著优势,证明了该方法在提升对话式诊断AI性能方面的有效性。
🎯 应用场景
该研究成果可应用于远程医疗、在线健康咨询、智能诊断助手等领域。通过整合多模态数据,可以提高诊断的准确性和效率,尤其是在缺乏专业医疗资源的地区。未来,该技术有望成为临床医生的有力辅助工具,提升医疗服务的质量和可及性。
📄 摘要(原文)
Large Language Models (LLMs) have demonstrated great potential for conducting diagnostic conversations but evaluation has been largely limited to language-only interactions, deviating from the real-world requirements of remote care delivery. Instant messaging platforms permit clinicians and patients to upload and discuss multimodal medical artifacts seamlessly in medical consultation, but the ability of LLMs to reason over such data while preserving other attributes of competent diagnostic conversation remains unknown. Here we advance the conversational diagnosis and management performance of the Articulate Medical Intelligence Explorer (AMIE) through a new capability to gather and interpret multimodal data, and reason about this precisely during consultations. Leveraging Gemini 2.0 Flash, our system implements a state-aware dialogue framework, where conversation flow is dynamically controlled by intermediate model outputs reflecting patient states and evolving diagnoses. Follow-up questions are strategically directed by uncertainty in such patient states, leading to a more structured multimodal history-taking process that emulates experienced clinicians. We compared AMIE to primary care physicians (PCPs) in a randomized, blinded, OSCE-style study of chat-based consultations with patient actors. We constructed 105 evaluation scenarios using artifacts like smartphone skin photos, ECGs, and PDFs of clinical documents across diverse conditions and demographics. Our rubric assessed multimodal capabilities and other clinically meaningful axes like history-taking, diagnostic accuracy, management reasoning, communication, and empathy. Specialist evaluation showed AMIE to be superior to PCPs on 7/9 multimodal and 29/32 non-multimodal axes (including diagnostic accuracy). The results show clear progress in multimodal conversational diagnostic AI, but real-world translation needs further research.