Patient-specific Biomolecular Instruction Tuning

📄 arXiv: 2509.22853v1 📥 PDF

作者: Irsyad Adam, Zekai Chen, David Laub, Shaun Porwal, Arda Pekis, Kevin Brown

分类: q-bio.QM, cs.AI, cs.CL, cs.LG

发布日期: 2025-09-26


💡 一句话要点

提出KRONOS图-LLM框架,结合CPTAC-PROTSTRUCT数据集,提升肿瘤精准医疗中患者个体化蛋白质组学理解。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 蛋白质组学 大型语言模型 图神经网络 指令调优 精准医疗

📋 核心要点

  1. 现有方法缺乏针对蛋白质组学数据的临床解释指令调优数据集,限制了LLM在肿瘤精准医疗中的应用。
  2. KRONOS框架结合分子相互作用拓扑和蛋白质组学,学习患者特异性图表示,增强LLM的临床推理能力。
  3. 实验表明,KRONOS在分子分类、时间轨迹建模和肿瘤分期预测等任务上表现出色,提升了精准医疗水平。

📝 摘要(中文)

蛋白质组学数据对于理解疾病的致病机制至关重要。在癌症研究中,分子特征分析能够通过识别驱动个体化肿瘤进展、治疗耐药性和临床异质性的生物过程,从而实现精准医疗。多模态大型语言模型(LLM)的最新进展显示出整合和推理异构数据的卓越能力。然而,由于缺乏能够从蛋白质组学数据进行临床解释的指令调优数据集,以及缺乏旨在捕获分子数据丰富异质性的语言建模架构,因此对患者特异性蛋白质组学进行多模态语言建模仍然是一个重大挑战。本文提出了CPTAC-PROTSTRUCT,这是首个用于肿瘤分子理解的指令调优数据集,包含超过40万个开放式示例,这些示例来自国家蛋白质组学癌症研究(CPTAC)中个体化的蛋白质组学谱。此外,我们提出了KRONOS(通过结构化调优实现肿瘤患者组学网络知识表示),这是一种新型的图-LLM框架,它利用分子相互作用拓扑结构和蛋白质组学来学习患者特异性图表示,从而增强临床推理能力。实验表明,KRONOS在基准临床任务(包括分子分类、时间轨迹建模和蛋白质组学肿瘤分期预测)中取得了具有竞争力的性能。最终,这种方法使LLM能够理解患者层面的发病机制,并通过更准确的诊断、预后和治疗分层来推进精准医疗。

🔬 方法详解

问题定义:现有方法在利用大型语言模型(LLM)进行患者特异性蛋白质组学分析时面临两个主要痛点:一是缺乏高质量的指令调优数据集,使得LLM难以从蛋白质组学数据中提取有意义的临床解释;二是缺乏能够有效处理分子数据复杂异质性的语言建模架构,导致LLM无法充分理解患者个体的分子特征。

核心思路:论文的核心思路是构建一个大规模的蛋白质组学指令调优数据集(CPTAC-PROTSTRUCT),并设计一个新型的图-LLM框架(KRONOS),将蛋白质组学数据与分子相互作用网络相结合,从而使LLM能够学习到患者特异性的分子表征,并提升其在临床推理任务中的性能。这样设计的目的是为了弥补现有方法在数据和模型架构上的不足,从而更好地利用LLM进行肿瘤精准医疗。

技术框架:KRONOS框架包含以下主要模块:1) 数据预处理模块,用于清洗和标准化蛋白质组学数据;2) 图构建模块,基于分子相互作用信息构建患者特异性的分子网络;3) 图嵌入模块,利用图神经网络学习分子网络的节点表示;4) LLM模块,将图嵌入和蛋白质组学数据输入LLM进行指令调优,从而使LLM能够理解患者的分子特征并进行临床推理。整体流程是从原始蛋白质组学数据开始,经过图构建和嵌入,最终输入到LLM中进行训练和推理。

关键创新:论文的关键创新点在于:1) 提出了CPTAC-PROTSTRUCT数据集,这是首个用于肿瘤分子理解的指令调优数据集,为LLM在蛋白质组学领域的应用提供了数据基础;2) 设计了KRONOS框架,将图神经网络和LLM相结合,能够有效地处理分子数据的复杂异质性,并学习到患者特异性的分子表征。与现有方法相比,KRONOS能够更好地利用分子相互作用信息,从而提升LLM的临床推理能力。

关键设计:在图构建模块中,论文可能使用了已知的蛋白质-蛋白质相互作用数据库来构建分子网络。在图嵌入模块中,可能采用了图卷积网络(GCN)或图注意力网络(GAT)等图神经网络来学习节点表示。在LLM模块中,可能使用了Transformer架构的预训练语言模型,并采用了指令调优的方法来训练模型。具体的损失函数可能包括交叉熵损失或对比学习损失等。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

KRONOS框架在分子分类、时间轨迹建模和肿瘤分期预测等基准临床任务中取得了具有竞争力的性能。具体性能数据和对比基线在论文中给出,表明该方法能够有效提升LLM在蛋白质组学领域的临床推理能力,为精准医疗提供更准确的决策依据。

🎯 应用场景

该研究成果可应用于肿瘤精准医疗领域,通过分析患者的蛋白质组学数据,结合分子相互作用网络,可以更准确地诊断肿瘤类型、预测预后和制定个体化的治疗方案。未来,该方法有望推广到其他疾病领域,为实现个性化医疗提供技术支持。

📄 摘要(原文)

Proteomics data is essential to pathogenic understanding of a disease phenotype. In cancer, analysis of molecular signatures enables precision medicine through the identification of biological processes that drive individualized tumor progression, therapeutic resistance, and clinical heterogeneity. Recent advances in multimodal large language models (LLMs) have shown remarkable capacity to integrate and reason across heterogeneous data modalities. However, performing multi-modal language modeling for molecular understanding of patient-specific proteomics remains a significant challenge due to two barriers: (1) the lack of instruction-tuning datasets that enable clinical interpretation from proteomics data, and (2) the absence of language modeling architectures designed to capture the rich heterogeneity of molecular data. In this work, we introduce CPTAC-PROTSTRUCT, the first instruction tuning dataset for molecular understanding of oncology, comprising over 400k open-ended examples derived from individualized proteomic profiles curated from the largest national proteomics cancer study (CPTAC). Additionally, we propose KRONOS (Knowledge Representation of patient Omics Networks in Oncology via Structured tuning), a novel graph-LLM framework that leverages molecular interaction topology with proteomics to learn patient-specific graph representations for enhanced clinical reasoning. We show that KRONOS achieves competitive performance across benchmark clinical tasks, including molecular classification, temporal trajectory modeling, and tumor stage prediction from proteomics data. Ultimately, this approach empowers LLMs to understand patient-level pathogenesis, advancing precision medicine through more accurate diagnosis, prognosis, and treatment stratification.