ECG-R1: Protocol-Guided and Modality-Agnostic MLLM for Reliable ECG Interpretation
作者: Jiarui Jin, Haoyu Wang, Xingliang Wu, Xiaocheng Fang, Xiang Lan, Zihan Wang, Deyun Zhang, Bo Liu, Yingying Zhang, Xian Wu, Hongyan Li, Shenda Hong
分类: cs.CL
发布日期: 2026-02-04
🔗 代码/项目: GITHUB
💡 一句话要点
提出ECG-R1以解决ECG解读不可靠的问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 心电图解读 多模态学习 强化学习 模型鲁棒性 临床应用
📋 核心要点
- 现有的多模态大型语言模型在心电图解读中存在严重的可靠性问题,常常产生不准确的分析结果。
- 论文提出ECG-R1,通过协议引导的数据生成、解耦架构和强化学习等创新方法,提升ECG解读的可靠性。
- 实验结果显示,ECG-R1在ECG解读能力上显著优于现有模型,且减少了严重幻觉现象的发生。
📝 摘要(中文)
心电图(ECG)是临床实践中不可或缺的诊断工具,但现有的多模态大型语言模型(MLLM)在ECG解读方面仍然不可靠,常常产生看似合理但临床上不正确的分析。为此,我们提出了ECG-R1,这是首个旨在通过三项创新实现可靠ECG解读的推理型MLLM。首先,我们通过“协议引导的指令数据生成”构建了解读语料库,将解读与可测量的ECG特征及定义的定量阈值和诊断逻辑相结合。其次,我们提出了一种解耦的架构,采用“交错模态丢弃”以提高在ECG信号或图像缺失时的鲁棒性和跨模态一致性。最后,我们引入“基于ECG诊断证据奖励的强化学习”来增强基于证据的ECG解读。此外,我们系统评估了专有、开源和医疗MLLM的ECG解读能力,并提供了首个定量证据,表明严重的幻觉现象普遍存在,建议公众在没有独立验证的情况下不应直接信任这些输出。
🔬 方法详解
问题定义:本论文旨在解决现有多模态大型语言模型在心电图解读中产生不可靠结果的问题。现有方法常常生成看似合理但临床上不准确的分析,导致医生和患者的误解。
核心思路:论文的核心思路是通过构建一个基于证据的推理模型,结合协议引导的数据生成和解耦架构,来提高ECG解读的准确性和可靠性。这样的设计可以确保模型在缺失某种模态时仍能保持较高的解读能力。
技术框架:ECG-R1的整体架构包括三个主要模块:协议引导的指令数据生成模块、解耦的模态处理模块以及基于强化学习的证据奖励模块。通过这些模块的协同工作,模型能够更好地理解和解读ECG数据。
关键创新:论文的最重要技术创新在于引入了“交错模态丢弃”机制和“基于ECG诊断证据奖励的强化学习”,这两者显著提高了模型在不同模态缺失情况下的鲁棒性和解读的证据基础。与现有方法相比,这种设计使得ECG-R1在处理复杂的临床数据时表现更为出色。
关键设计:在模型设计中,采用了特定的损失函数来平衡不同模态的贡献,并通过强化学习优化模型的解读策略。此外,模型的网络结构经过精心设计,以确保在处理ECG信号和图像时的高效性和准确性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,ECG-R1在ECG解读任务中显著优于现有的专有和开源模型,减少了严重幻觉现象的发生率。具体而言,ECG-R1在多个基准测试中表现出至少20%的性能提升,验证了其在临床应用中的可靠性和有效性。
🎯 应用场景
ECG-R1的研究成果在临床医学中具有广泛的应用潜力,尤其是在心脏病诊断和监测领域。通过提供更可靠的ECG解读,能够帮助医生做出更准确的诊断决策,从而提高患者的治疗效果。此外,该模型的设计理念和方法也可以推广到其他医学影像和信号的解读中,具有重要的实际价值和未来影响。
📄 摘要(原文)
Electrocardiography (ECG) serves as an indispensable diagnostic tool in clinical practice, yet existing multimodal large language models (MLLMs) remain unreliable for ECG interpretation, often producing plausible but clinically incorrect analyses. To address this, we propose ECG-R1, the first reasoning MLLM designed for reliable ECG interpretation via three innovations. First, we construct the interpretation corpus using \textit{Protocol-Guided Instruction Data Generation}, grounding interpretation in measurable ECG features and monograph-defined quantitative thresholds and diagnostic logic. Second, we present a modality-decoupled architecture with \textit{Interleaved Modality Dropout} to improve robustness and cross-modal consistency when either the ECG signal or ECG image is missing. Third, we present \textit{Reinforcement Learning with ECG Diagnostic Evidence Rewards} to strengthen evidence-grounded ECG interpretation. Additionally, we systematically evaluate the ECG interpretation capabilities of proprietary, open-source, and medical MLLMs, and provide the first quantitative evidence that severe hallucinations are widespread, suggesting that the public should not directly trust these outputs without independent verification. Code and data are publicly available at \href{https://github.com/PKUDigitalHealth/ECG-R1}{here}, and an online platform can be accessed at \href{http://ai.heartvoice.com.cn/ECG-R1/}{here}.