Incentivizing Cardiologist-Like Reasoning in MLLMs for Interpretable Echocardiographic Diagnosis

📄 arXiv: 2601.08440v1 📥 PDF

作者: Yi Qin, Lehan Wang, Chenxu Zhao, Alex P. W. Lee, Xiaomeng Li

分类: cs.CV

发布日期: 2026-01-13


💡 一句话要点

提出CardiacMind,通过强化学习激励MLLM进行类心脏科医生的可解释超声心动图诊断推理。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 超声心动图诊断 多模态大型语言模型 强化学习 医学推理 心脏疾病 可解释性 心脏推理模板

📋 核心要点

  1. 现有超声心动图模型难以关联定量测量和临床表现,医学MLLM构建推理路径成本高昂且难以融入超声心动图先验知识。
  2. 提出CardiacMind,结合心脏推理模板(CRT)和强化学习,模拟心脏科医生思维,提升MLLM的超声心动图推理能力。
  3. 实验表明,该方法在多视图超声心动图诊断中提升48%,在CardiacNet-PAH上提升5%,临床医生对推理逻辑的认可度高达93.33%。

📝 摘要(中文)

超声心动图诊断对于心脏筛查至关重要,但也极具挑战性。现有的超声心动图基础模型无法有效捕捉定量测量与临床表现之间的关系,而医学推理多模态大型语言模型(MLLM)需要耗费大量成本构建详细的推理路径,并且无法有效地将超声心动图先验知识直接融入到推理过程中。为了解决这些限制,我们提出了一种新颖的方法,包括心脏推理模板(CRT)和CardiacMind,通过引入类心脏科医生的思维方式来增强MLLM的超声心动图推理能力。具体来说,CRT为复杂心脏疾病提供逐步的规范诊断程序,从而简化推理路径的构建,而无需昂贵的逐个案例验证。为了激励CRT下的推理MLLM,我们开发了CardiacMind,这是一种新的强化学习方案,具有三个新的奖励:程序数量奖励(PQtR)、程序质量奖励(PQlR)和超声心动图语义奖励(ESR)。PQtR促进详细的推理;PQlR促进跨视图和模态的证据整合,而ESR将逐步描述建立在视觉内容的基础上。我们的方法在15种复杂心脏疾病的多视图超声心动图诊断中显示出48%的改进,并且在CardiacNet-PAH上比先前的方法提高了5%。对我们方法的推理输出的用户研究表明,93.33%的临床医生同意类心脏科医生的推理逻辑。我们的代码将会开源。

🔬 方法详解

问题定义:论文旨在解决现有超声心动图诊断模型和医学MLLM在复杂心脏疾病诊断中存在的不足。现有方法要么无法有效捕捉定量测量与临床表现之间的关系,要么需要耗费大量成本构建详细的推理路径,并且难以将超声心动图先验知识融入推理过程。这些痛点限制了模型在实际临床应用中的效果和效率。

核心思路:论文的核心思路是通过引入类心脏科医生的思维方式来增强MLLM的超声心动图推理能力。具体而言,通过构建心脏推理模板(CRT)来规范诊断流程,并利用强化学习(CardiacMind)来激励MLLM按照CRT进行推理,从而提高诊断的准确性和可解释性。这样设计的目的是为了让模型能够像心脏科医生一样,逐步分析超声心动图数据,并结合临床知识进行诊断。

技术框架:整体框架包括两个主要组成部分:心脏推理模板(CRT)和强化学习方案(CardiacMind)。CRT提供了一套逐步的规范诊断程序,用于指导MLLM进行推理。CardiacMind则通过强化学习来激励MLLM遵循CRT进行推理,并优化推理过程。具体流程是:首先,MLLM根据CRT生成推理步骤;然后,CardiacMind根据三个奖励函数(PQtR、PQlR和ESR)评估推理步骤的质量;最后,MLLM根据奖励信号调整推理策略,从而提高诊断的准确性和可解释性。

关键创新:论文的关键创新在于提出了CardiacMind,这是一种新的强化学习方案,用于激励MLLM按照心脏推理模板(CRT)进行推理。CardiacMind包含三个新的奖励函数:程序数量奖励(PQtR)、程序质量奖励(PQlR)和超声心动图语义奖励(ESR)。PQtR鼓励详细的推理步骤,PQlR鼓励跨视图和模态的证据整合,ESR则将推理步骤与视觉内容联系起来。与现有方法相比,CardiacMind能够更有效地引导MLLM进行类心脏科医生的推理,从而提高诊断的准确性和可解释性。

关键设计:CardiacMind的关键设计在于三个奖励函数的具体实现。PQtR旨在鼓励MLLM生成更详细的推理步骤,其具体形式未知。PQlR旨在鼓励MLLM整合来自不同视图和模态的证据,其具体实现方式未知。ESR旨在将推理步骤与视觉内容联系起来,其具体实现方式也未知。此外,强化学习算法的具体选择和参数设置也未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在15种复杂心脏疾病的多视图超声心动图诊断中取得了显著的提升,诊断准确率提高了48%。此外,在CardiacNet-PAH数据集上,该方法也比先前的方法提高了5%。用户研究表明,93.33%的临床医生认可该方法生成的推理逻辑,认为其与心脏科医生的推理方式相似。

🎯 应用场景

该研究成果具有广泛的应用前景,可用于辅助心脏科医生进行超声心动图诊断,提高诊断效率和准确性。尤其是在缺乏经验丰富的医生的地区,该技术可以提供重要的诊断支持。未来,该技术还可以扩展到其他医学影像诊断领域,为更广泛的临床应用提供支持。

📄 摘要(原文)

Echocardiographic diagnosis is vital for cardiac screening yet remains challenging. Existing echocardiography foundation models do not effectively capture the relationships between quantitative measurements and clinical manifestations, whereas medical reasoning multimodal large language models (MLLMs) require costly construction of detailed reasoning paths and remain ineffective at directly incorporating such echocardiographic priors into their reasoning. To address these limitations, we propose a novel approach comprising Cardiac Reasoning Template (CRT) and CardiacMind to enhance MLLM's echocardiographic reasoning by introducing cardiologist-like mindset. Specifically, CRT provides stepwise canonical diagnostic procedures for complex cardiac diseases to streamline reasoning path construction without the need for costly case-by-case verification. To incentivize reasoning MLLM under CRT, we develop CardiacMind, a new reinforcement learning scheme with three novel rewards: Procedural Quantity Reward (PQtR), Procedural Quality Reward (PQlR), and Echocardiographic Semantic Reward (ESR). PQtR promotes detailed reasoning; PQlR promotes integration of evidence across views and modalities, while ESR grounds stepwise descriptions in visual content. Our methods show a 48% improvement in multiview echocardiographic diagnosis for 15 complex cardiac diseases and a 5% improvement on CardiacNet-PAH over prior methods. The user study on our method's reasoning outputs shows 93.33% clinician agreement with cardiologist-like reasoning logic. Our code will be available.