ECHOPulse: ECG controlled echocardio-grams video generation

📄 arXiv: 2410.03143v2 📥 PDF

作者: Yiwei Li, Sekeun Kim, Zihao Wu, Hanqi Jiang, Yi Pan, Pengfei Jin, Sifan Song, Yucheng Shi, Tianming Liu, Quanzheng Li, Xiang Li

分类: eess.IV, cs.CV, cs.LG

发布日期: 2024-10-04 (更新: 2024-10-12)

🔗 代码/项目: GITHUB


💡 一句话要点

ECHOPulse:提出一种基于心电图控制的心脏超声视频生成模型,提升合成数据质量和自动化监测能力。

🎯 匹配领域: 支柱四:生成式动作 (Generative Motion) 支柱八:物理动画 (Physics-based Animation)

关键词: ECHO视频生成 心电图控制 医学影像 VQ-VAE Masked Visual Token Modeling 时间序列建模 合成数据

📋 核心要点

  1. 现有ECHO视频生成模型计算成本高、推理慢,且依赖专家标注的复杂条件提示,限制了其应用。
  2. ECHOPULSE利用VQ-VAE和masked visual token modeling加速解码,并创新性地使用ECG信号作为条件,绕过复杂提示。
  3. 在多个数据集上,ECHOPULSE在ECHO视频生成方面取得了SOTA性能,并可推广到其他医学影像模态。

📝 摘要(中文)

心脏超声(ECHO)是心脏评估的关键,但其视频质量和解读严重依赖人工专业知识,导致临床和便携设备的结果不一致。ECHO视频生成通过合成数据和从常规健康数据生成高质量视频来改善自动化监测,从而提供了一种解决方案。然而,现有模型通常面临高计算成本、慢推理速度,并且依赖于需要专家标注的复杂条件提示。为了解决这些挑战,我们提出了ECHOPULSE,一种基于心电图(ECG)控制的ECHO视频生成模型。ECHOPULSE引入了两项关键改进:(1)它通过利用VQ-VAE tokenization和masked visual token modeling进行快速解码来加速ECHO视频生成,以及(2)它以易于访问的ECG信号为条件,ECG信号与ECHO视频高度一致,从而绕过了复杂的条件提示。据我们所知,这是第一个使用像ECG信号这样的时间序列提示进行ECHO视频生成的工作。ECHOPULSE不仅能够实现可控的合成ECHO数据生成,而且还提供了更新的心脏功能信息,用于超出ECG的疾病监测和预测。在三个公共和私有数据集上的评估表明,ECHOPULSE在ECHO视频生成方面表现出最先进的性能,包括定性和定量指标。此外,ECHOPULSE可以很容易地推广到其他模态生成任务,例如心脏MRI、fMRI和3D CT生成。

🔬 方法详解

问题定义:现有ECHO视频生成方法存在计算资源消耗大、推理速度慢的问题,并且需要依赖专家标注的复杂条件提示,这限制了其在临床和便携设备上的应用。这些方法难以高效地生成高质量的ECHO视频,阻碍了自动化监测和疾病预测的发展。

核心思路:ECHOPULSE的核心思路是利用易于获取且与ECHO视频高度相关的ECG信号作为条件,从而绕过对复杂条件提示的依赖。同时,采用VQ-VAE tokenization和masked visual token modeling来加速视频生成过程,降低计算成本,提高推理速度。这种设计旨在实现高效、可控的ECHO视频合成。

技术框架:ECHOPULSE的整体框架包括以下几个主要模块:1) ECG编码器:将ECG信号编码为特征向量。2) VQ-VAE:将ECHO视频帧进行tokenization,将像素空间映射到离散的token空间。3) Masked Visual Token Modeling:利用masked visual token modeling学习token之间的关系,并结合ECG特征向量生成ECHO视频token。4) 解码器:将生成的ECHO视频token解码为最终的ECHO视频帧。整个流程通过ECG信号控制ECHO视频的生成,并利用tokenization加速生成过程。

关键创新:ECHOPULSE最重要的技术创新点在于首次将时间序列信号(ECG)作为ECHO视频生成的条件。与以往依赖复杂图像或文本提示的方法不同,ECG信号易于获取且与心脏活动密切相关,能够更有效地控制ECHO视频的生成。此外,结合VQ-VAE和masked visual token modeling进一步提升了生成效率和视频质量。

关键设计:在关键设计方面,ECHOPULSE采用了VQ-VAE进行视频帧的tokenization,降低了计算复杂度。Masked visual token modeling通过预测被mask的token来学习视频帧之间的时序关系。ECG编码器采用卷积神经网络提取ECG信号的特征。损失函数包括VQ-VAE的重构损失和masked visual token modeling的预测损失。具体的网络结构和参数设置在论文中有详细描述(具体数值未知)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

ECHOPULSE在三个公共和私有数据集上进行了评估,结果表明其在ECHO视频生成方面取得了最先进的性能。具体性能数据(如FID、PSNR等)和对比基线(具体模型未知)在论文中有所展示。作者强调,ECHOPULSE在定性和定量指标上均优于现有方法,证明了其有效性和优越性。此外,该模型还展示了良好的泛化能力,可以应用于其他医学影像模态。

🎯 应用场景

ECHOPULSE在医学影像领域具有广泛的应用前景,可用于生成高质量的合成ECHO视频,用于训练AI模型,提高心脏疾病的诊断准确率。此外,该模型还可用于远程医疗和便携式设备,实现对心脏功能的实时监测和评估。未来,ECHOPULSE有望推广到其他医学影像模态,如MRI和CT,为医学研究和临床实践提供更强大的工具。

📄 摘要(原文)

Echocardiography (ECHO) is essential for cardiac assessments, but its video quality and interpretation heavily relies on manual expertise, leading to inconsistent results from clinical and portable devices. ECHO video generation offers a solution by improving automated monitoring through synthetic data and generating high-quality videos from routine health data. However, existing models often face high computational costs, slow inference, and rely on complex conditional prompts that require experts' annotations. To address these challenges, we propose ECHOPULSE, an ECG-conditioned ECHO video generation model. ECHOPULSE introduces two key advancements: (1) it accelerates ECHO video generation by leveraging VQ-VAE tokenization and masked visual token modeling for fast decoding, and (2) it conditions on readily accessible ECG signals, which are highly coherent with ECHO videos, bypassing complex conditional prompts. To the best of our knowledge, this is the first work to use time-series prompts like ECG signals for ECHO video generation. ECHOPULSE not only enables controllable synthetic ECHO data generation but also provides updated cardiac function information for disease monitoring and prediction beyond ECG alone. Evaluations on three public and private datasets demonstrate state-of-the-art performance in ECHO video generation across both qualitative and quantitative measures. Additionally, ECHOPULSE can be easily generalized to other modality generation tasks, such as cardiac MRI, fMRI, and 3D CT generation. Demo can seen from \url{https://github.com/levyisthebest/ECHOPulse_Prelease}.