Predicting Targeted Therapy Resistance in Non-Small Cell Lung Cancer Using Multimodal Machine Learning

📄 arXiv: 2503.24165v1 📥 PDF

作者: Peiying Hua, Andrea Olofson, Faraz Farhadi, Liesbeth Hondelink, Gregory Tsongalis, Konstantin Dragnev, Dagmar Hoegemann Savellano, Arief Suriawinata, Laura Tafe, Saeed Hassanpour

分类: cs.LG, cs.AI

发布日期: 2025-03-31


💡 一句话要点

提出一种多模态机器学习模型,用于预测非小细胞肺癌患者对奥希替尼的耐药性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 非小细胞肺癌 奥希替尼 耐药性预测 多模态学习 机器学习 基因突变 组织病理学

📋 核心要点

  1. 现有技术缺乏准确预测TKI耐药性的标准工具,阻碍了NSCLC患者从奥希替尼治疗中充分获益。
  2. 该研究提出一种可解释的多模态机器学习模型,整合多种数据类型预测患者对奥希替尼的耐药性。
  3. 实验结果表明,该多模态模型在预测奥希替尼耐药性方面优于单模态模型,c-index达到0.82。

📝 摘要(中文)

肺癌是全球癌症死亡的主要原因,非小细胞肺癌(NSCLC)是最常见的亚型。在NSCLC患者中,约32.3%存在表皮生长因子受体(EGFR)基因突变。奥希替尼是一种第三代EGFR酪氨酸激酶抑制剂(TKI),已证明对具有激活和T790M耐药性EGFR突变的NSCLC患者具有显著疗效。尽管其疗效已得到证实,但耐药性对患者充分受益于奥希替尼构成了重大挑战。缺乏准确预测TKI耐药性(包括奥希替尼耐药性)的标准工具仍然是一个关键障碍。为了弥合这一差距,在本研究中,我们开发了一种可解释的多模态机器学习模型,旨在预测晚期NSCLC患者(具有激活EGFR突变)对奥希替尼的耐药性,并在多机构数据集上实现了0.82的c-index。该机器学习模型利用患者就诊和医疗评估期间常规收集的易于获得的数据,以促进精准肺癌管理和知情的治疗决策。通过整合组织学图像、下一代测序(NGS)数据、人口统计数据和临床记录等各种数据类型,我们的多模态模型可以生成充分知情的建议。我们的实验结果还证明了多模态模型优于单模态模型(c-index 0.82 vs 0.75 和 0.77),从而强调了在患者预后预测中结合多种模态的益处。

🔬 方法详解

问题定义:该论文旨在解决非小细胞肺癌(NSCLC)患者对奥希替尼(Osimertinib)产生耐药性的预测问题。现有方法缺乏准确预测TKI耐药性的标准工具,导致医生难以制定最佳治疗方案,影响患者生存率。

核心思路:论文的核心思路是利用多模态机器学习方法,整合组织学图像、下一代测序(NGS)数据、人口统计数据和临床记录等多种数据类型,从而更准确地预测患者对奥希替尼的耐药性。这种方法旨在捕捉不同数据源之间的互补信息,提高预测的准确性和可靠性。

技术框架:该模型采用多模态融合框架,主要包括以下几个阶段:1)数据收集与预处理:收集患者的组织学图像、NGS数据、人口统计数据和临床记录;2)特征提取:从各种数据类型中提取相关特征,例如从组织学图像中提取纹理特征,从NGS数据中提取基因突变信息;3)多模态融合:将提取的特征进行融合,可以使用简单的拼接或更复杂的注意力机制;4)耐药性预测:使用机器学习模型(例如,逻辑回归、支持向量机或神经网络)基于融合后的特征预测患者对奥希替尼的耐药性。

关键创新:该论文的关键创新在于整合了多种数据模态,并利用机器学习模型进行预测。与传统的单模态方法相比,多模态方法能够更全面地捕捉患者的生物学特征和临床信息,从而提高预测的准确性。此外,该模型的可解释性也是一个重要的创新点,有助于医生理解模型的预测结果,并做出更明智的治疗决策。

关键设计:论文中没有详细说明关键参数设置、损失函数和网络结构等技术细节。但是,可以推断,模型可能使用了交叉验证来优化模型参数,并使用了标准的分类损失函数(例如,交叉熵损失函数)来训练模型。网络结构可能采用了卷积神经网络(CNN)来处理组织学图像,并使用全连接网络来融合不同模态的特征。

📊 实验亮点

该研究构建的多模态机器学习模型在多机构数据集上实现了0.82的c-index,显著优于单模态模型(c-index 0.75和0.77)。这表明整合多种数据模态能够显著提高奥希替尼耐药性预测的准确性。

🎯 应用场景

该研究成果可应用于临床,辅助医生预测非小细胞肺癌患者对奥希替尼的耐药性,从而制定更精准的治疗方案,提高患者生存率。此外,该方法也可推广到其他癌症的耐药性预测研究中,具有广阔的应用前景。

📄 摘要(原文)

Lung cancer is the primary cause of cancer death globally, with non-small cell lung cancer (NSCLC) emerging as its most prevalent subtype. Among NSCLC patients, approximately 32.3% have mutations in the epidermal growth factor receptor (EGFR) gene. Osimertinib, a third-generation EGFR-tyrosine kinase inhibitor (TKI), has demonstrated remarkable efficacy in the treatment of NSCLC patients with activating and T790M resistance EGFR mutations. Despite its established efficacy, drug resistance poses a significant challenge for patients to fully benefit from osimertinib. The absence of a standard tool to accurately predict TKI resistance, including that of osimertinib, remains a critical obstacle. To bridge this gap, in this study, we developed an interpretable multimodal machine learning model designed to predict patient resistance to osimertinib among late-stage NSCLC patients with activating EGFR mutations, achieving a c-index of 0.82 on a multi-institutional dataset. This machine learning model harnesses readily available data routinely collected during patient visits and medical assessments to facilitate precision lung cancer management and informed treatment decisions. By integrating various data types such as histology images, next generation sequencing (NGS) data, demographics data, and clinical records, our multimodal model can generate well-informed recommendations. Our experiment results also demonstrated the superior performance of the multimodal model over single modality models (c-index 0.82 compared with 0.75 and 0.77), thus underscoring the benefit of combining multiple modalities in patient outcome prediction.