Multimodal Stepwise Clinically-Guided Attention Learning for Pathological Complete Response Prediction in Breast Cancer
作者: Alice Natalina Caragliano, Valerio Guarrasi, Michela Gravina, Carlo Sansone, Paolo Soda
分类: cs.CV
发布日期: 2026-05-08
💡 一句话要点
提出多模态逐步临床引导注意力学习框架,以提升乳腺癌病理完全缓解(pCR)的预测精度与泛化性。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 乳腺癌预测 病理完全缓解 多模态融合 注意力机制 医学影像分析 临床决策支持 模型泛化性
📋 核心要点
- 现有pCR预测模型面临严重的类别不平衡问题,且因过度拟合数据集特定噪声,导致在不同临床环境下的泛化能力较差。
- 提出一种模拟医生诊断逻辑的逐步训练框架,通过临床先验知识引导注意力机制聚焦肿瘤区域,并融合多模态临床变量进行决策。
- 实验结果显示,该方法在异构MRI队列中显著提升了敏感性,生成的注意力图具有解剖一致性,增强了模型的可解释性与临床鲁棒性。
📝 摘要(中文)
病理完全缓解(pCR)是乳腺癌新辅助治疗的重要预后指标。然而,由于严重的类别不平衡和跨临床环境的泛化能力有限,准确的术前pCR预测仍具挑战。本文提出了一种多模态逐步临床引导注意力学习框架,通过医学基础的空间引导和多模态整合来解决上述限制。该方法模拟医生的诊断推理过程,采用逐步训练策略:首先学习全局影像特征,随后引入注意力机制聚焦肿瘤区域,最后整合临床变量以精炼决策。这种引导策略强化了对任务相关特征的优先级排序,提升了对少数类(响应者)的识别能力。此外,将注意力锚定在解剖一致的肿瘤区域,减少了对数据集特定模式的依赖,增强了跨机构的泛化性能。实验表明,该方法在异构MRI队列中表现优于非引导基线,在保持特异性的同时显著提升了敏感性,并生成了具有临床可解释性的注意力图。
🔬 方法详解
问题定义:论文旨在解决乳腺癌新辅助治疗中pCR预测的准确性瓶颈。现有深度学习模型往往难以处理样本极度不平衡的临床数据,且容易学习到与病理无关的背景噪声,导致跨中心泛化性能低下。
核心思路:借鉴临床医生的诊断思维,将“由全局到局部再到综合”的推理过程引入神经网络训练。通过逐步引入空间约束和临床变量,强制模型关注病灶区域,从而过滤无关特征,提升模型对关键病理信息的捕捉能力。
技术框架:框架分为三个阶段:第一阶段学习MRI影像的全局判别特征;第二阶段引入注意力机制,利用临床先验知识约束网络聚焦于肿瘤解剖区域;第三阶段将临床变量(如分子亚型、临床分期等)与影像特征进行多模态融合,输出最终预测结果。
关键创新:核心创新在于“逐步临床引导”策略。不同于端到端的黑盒学习,该方法通过分阶段训练,将医学解剖知识显式地注入注意力机制中,实现了从数据驱动向知识驱动的范式转变。
关键设计:采用了基于解剖一致性的注意力掩码,确保模型在处理不同来源的MRI数据时,始终将注意力集中在肿瘤病灶上。损失函数设计上,通过加权机制平衡类别不平衡,并结合多模态融合模块对临床变量进行特征对齐。
🖼️ 关键图片
📊 实验亮点
在多中心异构MRI数据集上的验证表明,该方法在保持高特异性的同时,显著提升了对响应者(pCR患者)的敏感性。相比于传统的单阶段非引导模型,该框架生成的注意力图与放射科医生的标注高度吻合,证明了其在临床环境下的鲁棒性与可解释性优于现有基线方法。
🎯 应用场景
该研究主要应用于乳腺癌精准医疗领域,特别是新辅助化疗后的疗效评估。通过术前MRI影像与临床数据的深度融合,辅助医生预测患者是否达到pCR,从而优化治疗方案(如调整手术范围或后续辅助治疗),具有极高的临床决策支持价值。
📄 摘要(原文)
Pathological complete response (pCR) is a key prognostic factor in breast cancer patients undergoing neoadjuvant therapy, strongly associated with long-term survival and treatment personalization. However, accurate pre-treatment pCR prediction remains challenging due to severe class imbalance and limited generalizability across diverse clinical settings. In this work, we propose a multimodal stepwise clinically-guided attention learning framework for pCR prediction from breast magnetic resonance imaging (MRI), designed to address these limitations through medically grounded spatial guidance and multimodal integration. The approach follows a stepwise training strategy inspired by physician reasoning: the model first learns global discriminative imaging patterns, then attention mechanisms are introduced to constrain the network toward tumor regions, and finally clinical variables are integrated to refine decision-making. This guidance strategy encourages prioritization of task-relevant features, improving identification of responders despite their limited representation in the dataset. Moreover, grounding attention in anatomically consistent tumor regions reduces reliance on dataset-specific patterns, thereby enhancing cross-institutional generalization. The framework is evaluated through external validation across heterogeneous MRI cohorts. Compared to non-guided single-stage baselines, the proposed approach improves sensitivity while maintaining competitive specificity, and produces anatomically coherent attention maps that support interpretation of the model's predictions. These findings highlight the potential of clinically-guided multimodal attention learning for robust and generalizable pCR prediction in breast cancer.