Multimodal Learning and Cognitive Processes in Radiology: MedGaze for Chest X-ray Scanpath Prediction
作者: Akash Awasthi, Ngan Le, Zhigang Deng, Rishi Agrawal, Carol C. Wu, Hien Van Nguyen
分类: eess.IV, cs.AI, cs.HC
发布日期: 2024-06-28
备注: Submitted to the Journal
💡 一句话要点
MedGaze:提出一种多模态学习方法,用于预测胸部X光片扫描路径,提升放射诊断AI系统。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 眼动追踪 胸部X光 多模态学习 放射诊断 医学影像 深度学习 扫描路径预测
📋 核心要点
- 现有方法难以有效预测医学图像中的扫描路径,尤其是在异常区域具有多样性的情况下,这是一个挑战。
- MedGaze的核心思想是利用多模态学习,结合放射报告和CXR图像,预测放射科医生的眼动轨迹。
- 实验结果表明,MedGaze在预测注视坐标和持续时间方面优于现有模型,并能生成与放射报告对齐的热图和眼动视频。
📝 摘要(中文)
本文提出了一种名为MedGaze的系统,旨在预测放射报告和胸部X光(CXR)图像中的人类眼动轨迹。该系统能够预测医学扫描路径中的关键要素,即注视坐标和持续时间,其性能优于现有的计算机视觉模型。该方法采用两阶段训练过程,并利用大型公开数据集生成与放射报告对齐的静态热图和眼动视频,从而实现全面的分析。通过与最先进的方法进行比较,并评估其在不同放射科医生之间的泛化能力,验证了该方法的有效性。放射科医生的评估表明,MedGaze能够生成类人的眼动序列,并高度关注CXR图像上的相关区域,在扫描路径的冗余性和随机性方面,有时甚至优于人类。
🔬 方法详解
问题定义:论文旨在解决放射学领域中,预测放射科医生在阅读胸部X光片(CXR)时的眼动轨迹(scanpath prediction)的问题。现有的眼动行为建模方法虽然在计算机视觉领域取得了一定进展,但直接应用于医学图像,特别是CXR图像时,面临着异常区域多样性带来的挑战,难以准确预测放射科医生的注视位置和注视时长。
核心思路:MedGaze的核心思路是利用多模态学习,将放射报告的文本信息和CXR图像的视觉信息相结合,共同预测放射科医生的眼动轨迹。这种方法假设放射科医生的阅读行为受到图像内容和报告描述的双重影响,因此结合两种模态的信息能够更准确地模拟人类的认知过程。
技术框架:MedGaze采用两阶段训练框架。第一阶段,模型学习生成静态热图,该热图表示放射科医生可能关注的区域。第二阶段,模型利用第一阶段生成的热图和放射报告,预测眼动轨迹,包括注视坐标和注视持续时间。整体流程包括数据预处理、特征提取(图像和文本)、热图生成、眼动轨迹预测和结果评估等模块。
关键创新:MedGaze的关键创新在于将多模态学习应用于医学图像的眼动轨迹预测,并针对放射学领域的特殊性进行了优化。与传统的单模态方法相比,MedGaze能够更好地捕捉放射科医生的认知过程,从而更准确地预测其眼动行为。此外,该方法还引入了针对医学图像的眼动轨迹预测的评估指标。
关键设计:具体的技术细节包括:使用预训练的卷积神经网络(CNN)提取CXR图像的视觉特征,使用自然语言处理(NLP)模型(例如BERT)提取放射报告的文本特征。热图生成阶段可能采用注意力机制,以突出图像中的重要区域。眼动轨迹预测阶段可能使用循环神经网络(RNN)或Transformer模型,以建模眼动序列的时序依赖关系。损失函数的设计需要考虑注视坐标的准确性和注视持续时间的合理性。
📊 实验亮点
MedGaze在胸部X光片眼动轨迹预测任务中,显著优于现有的计算机视觉模型。放射科医生的评估表明,MedGaze生成的眼动序列与人类专家相似,能够高度关注CXR图像上的相关区域。在某些情况下,MedGaze在扫描路径的冗余性和随机性方面甚至优于人类。这些结果表明,MedGaze能够有效地模拟放射科医生的认知过程,并为开发智能放射诊断系统提供了有力的支持。
🎯 应用场景
MedGaze具有广泛的应用前景。它可以用于开发交互式放射诊断系统,根据医生的眼动轨迹提供辅助信息,提高诊断效率和准确性。此外,MedGaze还可以用于训练放射科医生,帮助他们学习专家的阅读模式。在人机交互和增强/虚拟现实系统中,MedGaze可以预测用户注意力,从而提供更自然和高效的交互体验。未来,该技术有望应用于其他医学影像领域,例如CT和MRI。
📄 摘要(原文)
Predicting human gaze behavior within computer vision is integral for developing interactive systems that can anticipate user attention, address fundamental questions in cognitive science, and hold implications for fields like human-computer interaction (HCI) and augmented/virtual reality (AR/VR) systems. Despite methodologies introduced for modeling human eye gaze behavior, applying these models to medical imaging for scanpath prediction remains unexplored. Our proposed system aims to predict eye gaze sequences from radiology reports and CXR images, potentially streamlining data collection and enhancing AI systems using larger datasets. However, predicting human scanpaths on medical images presents unique challenges due to the diverse nature of abnormal regions. Our model predicts fixation coordinates and durations critical for medical scanpath prediction, outperforming existing models in the computer vision community. Utilizing a two-stage training process and large publicly available datasets, our approach generates static heatmaps and eye gaze videos aligned with radiology reports, facilitating comprehensive analysis. We validate our approach by comparing its performance with state-of-the-art methods and assessing its generalizability among different radiologists, introducing novel strategies to model radiologists' search patterns during CXR image diagnosis. Based on the radiologist's evaluation, MedGaze can generate human-like gaze sequences with a high focus on relevant regions over the CXR images. It sometimes also outperforms humans in terms of redundancy and randomness in the scanpaths.