Machine Learning-Driven Multimodal Spectroscopic Liquid Biopsy for Early Multicancer Detection

📄 arXiv: 2605.13218v1 📥 PDF

作者: Alejandro Leonardo García Navarro, Javier Cachón Ortiz, Javier González Colsa, Samuel García Díaz, Carlos Viadero Valderrama

分类: cs.LG

发布日期: 2026-05-13


💡 一句话要点

提出基于机器学习的多模态光谱液体活检方法,用于早期多癌种检测

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态融合 光谱液体活检 机器学习 癌症早期检测 XGBoost

📋 核心要点

  1. 癌症早期诊断面临挑战,现有方法缺乏快速、微创、无标记和可扩展性。
  2. 结合FTIR、拉曼和EEM荧光光谱,利用机器学习进行多模态数据融合,提升诊断准确性。
  3. 实验结果表明,多模态融合方法在乳腺癌和结直肠癌检测中均取得了优异的ROC-AUC值。

📝 摘要(中文)

癌症是全球主要的死亡原因之一,因此开发快速、微创、无标记和可扩展的诊断策略是现代肿瘤学面临的主要挑战。光谱液体活检作为一种有前景的替代方案,能够全面表征生物体液中的生化改变。本文提出了一种基于机器学习的多模态光谱液体活检框架,用于多癌种检测,该框架结合了傅里叶变换红外(FTIR)光谱、拉曼光谱和激发-发射矩阵(EEM)荧光光谱以及机器学习(ML)方法。通过三种光谱模式分析了乳腺癌患者、结直肠癌患者和健康对照者的血清样本。经过特定模式的预处理后,采用低级数据融合(LLDF)来整合不同光谱测量中编码的互补生化信息,并使用XGBoost模型进行分类。评估了七种实验配置,包括三种单模态方法、所有成对双模态配置以及FTIR、拉曼和EEM荧光的全多模态方法。结果表明,虽然几种单独的模态实现了高判别性能,但多模态融合提供了最平衡的总体结果,乳腺癌的ROC-AUC达到0.997,结直肠癌的ROC-AUC达到0.994,同时具有高度平衡的灵敏度和特异性值。

🔬 方法详解

问题定义:论文旨在解决癌症早期检测的问题,现有方法通常具有侵入性、耗时或成本高昂等缺点。光谱液体活检虽然具有潜力,但单模态方法可能无法充分捕捉生物体液中复杂的生化信息,导致诊断准确率受限。

核心思路:论文的核心思路是利用多模态光谱数据融合,结合FTIR、拉曼和EEM荧光光谱的互补信息,更全面地表征生物体液的生化改变。通过机器学习算法,从融合后的数据中提取关键特征,实现对不同癌症类型的准确分类。

技术框架:该框架主要包含以下几个阶段:1)样本采集:收集乳腺癌患者、结直肠癌患者和健康对照者的血清样本。2)光谱数据采集:使用FTIR、拉曼和EEM荧光光谱技术分别对样本进行测量,获取光谱数据。3)数据预处理:对每种光谱数据进行特定模式的预处理,包括基线校正、噪声去除等。4)低级数据融合(LLDF):将预处理后的不同模态的光谱数据进行融合,形成统一的特征向量。5)分类:使用XGBoost模型对融合后的特征向量进行分类,区分不同癌症类型和健康对照。

关键创新:该研究的关键创新在于将多模态光谱技术与机器学习相结合,实现对癌症的早期检测。通过低级数据融合,充分利用了不同光谱技术的互补信息,提高了诊断准确率。此外,该方法具有无创、快速、成本较低等优点,具有良好的临床应用前景。

关键设计:在数据融合方面,采用了低级数据融合(LLDF),直接将不同光谱的原始数据进行拼接。在分类模型方面,选择了XGBoost,这是一种梯度提升算法,具有较强的分类能力和泛化性能。实验中评估了七种不同的配置,包括单模态、双模态和全多模态,以比较不同模态组合的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,多模态融合方法在乳腺癌和结直肠癌检测中均取得了优异的性能。乳腺癌的ROC-AUC达到0.997,结直肠癌的ROC-AUC达到0.994,同时具有高度平衡的灵敏度和特异性值。相比于单模态方法,多模态融合显著提高了诊断准确率。

🎯 应用场景

该研究成果可应用于癌症的早期筛查和诊断,尤其适用于大规模人群的快速筛查。通过分析患者的血清样本,可以早期发现癌症迹象,从而为患者争取宝贵的治疗时间。此外,该方法还可用于监测癌症治疗效果和评估预后,具有重要的临床应用价值。

📄 摘要(原文)

Cancer is one of the leading causes of death worldwide, making the development of rapid, minimally invasive, label-free and scalable diagnostic strategies a major challenge in modern oncology. In this context, spectroscopic liquid biopsy has emerged as a promising alternative, as it enables the holistic characterization of biochemical alterations in biological fluids. In this work, we propose a multimodal spectroscopic liquid biopsy framework for multicancer detection based on the combination of Fourier Transform Infrared (FTIR) spectroscopy, Raman spectroscopy, and Excitation-Emission Matrix (EEM) fluorescence spectroscopy together with Machine Learning (ML) methodologies. Serum samples from breast cancer patients, colorectal cancer patients, and healthy controls were analyzed through the three spectroscopic modalities. After modality-specific preprocessing, low-level data fusion (LLDF) was employed to integrate the complementary biochemical information encoded within the different spectroscopic measurements, and classification was performed using XGBoost models. Seven experimental configurations were evaluated, including the three unimodal approaches, all pairwise bimodal configurations, and the full multimodal approach of FTIR, Raman, and EEM fluorescence. The results show that although several individual modalities achieved high discrimination performance, the multimodal fusion provided the most balanced overall results, reaching a ROC-AUC of 0.997 for breast cancer and 0.994 for colorectal cancer, together with highly balanced sensitivity and specificity values.