Effective Biological Representation Learning by Masking Gene Expression

📄 arXiv: 2605.31562v1 📥 PDF

作者: Kian Kenyon-Dean, Alina Selega, Ihab Bendidi, Jordan M. Sorokin, Luca Bertinetto, David Errington, Hayley Donnella, Oren Kraus

分类: cs.LG

发布日期: 2026-05-29

备注: 31 pages, 11 figures. Preprint; presented at ICLR 2026 2nd Workshop on Foundation Models for Science: Real-World Impact and Science-First Design


💡 一句话要点

TxFM:通过掩码基因表达实现有效的生物表征学习

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 基因表达 RNA测序 自监督学习 掩码自动编码器 表征学习 转录组学 深度学习

📋 核心要点

  1. 现有的转录组基础模型在处理RNA测序数据时,受技术噪声和批次效应影响,性能不如线性基线。
  2. TxFM采用掩码自动编码方法,针对RNA-seq数据定制,通过消融研究确定了关键架构配置,提升迁移性能。
  3. TxFM在DiverseRNA-1.4M数据集上训练,生成高保真基因表征,优于在更大规模数据集上训练的基础模型。

📝 摘要(中文)

RNA测序产生丰富的基因表达数据集,为细胞状态和功能提供了引人注目的见解,并在药物发现中有许多应用。由于固有的技术噪声和实验批次效应,对此类数据进行建模具有挑战性,许多现有的转录组基础模型(FMs)相对于线性基线表现不佳。这项工作通过开发一种新的自监督模型TxFM来探索这个问题,重点是归纳表征学习评估。TxFM采用针对不同RNA-seq计数数据定制的掩码自动编码方法,并且我们的消融研究通过实验确定了实现强大迁移性能所需的关键架构配置。此外,我们整理了一个公共训练语料库DiverseRNA-1.4M,发现在此数据集上训练的TxFM产生高保真基因表征,其性能优于在规模大100倍的图谱级语料库上训练的FMs。总的来说,我们的结果表明,只要仔细综合模型架构和训练数据整理,归纳自监督学习是一种可行的转录组表征建模方法。

🔬 方法详解

问题定义:现有转录组基础模型在处理RNA测序数据时,由于技术噪声和实验批次效应的影响,性能往往不如简单的线性基线模型。这表明深度表征学习在转录组数据建模中可能没有发挥其应有的优势,现有方法难以有效提取基因表达数据中的有用信息。

核心思路:论文的核心思路是采用自监督学习方法,通过掩码自动编码器(Masked Autoencoder)来学习基因表达数据的有效表征。通过对输入数据进行掩码,迫使模型学习基因之间的依赖关系和内在结构,从而提高模型的泛化能力和鲁棒性。

技术框架:TxFM模型的整体框架是一个标准的掩码自动编码器结构。首先,对输入的RNA-seq计数数据进行掩码,即随机遮蔽一部分基因的表达值。然后,将掩码后的数据输入编码器,生成低维的基因表征。最后,解码器利用这些表征重构原始的基因表达数据。模型通过最小化重构误差来学习基因表征。

关键创新:该论文的关键创新在于针对RNA-seq数据特性定制了掩码自动编码器,并通过消融实验确定了关键的架构配置。此外,论文还构建了一个高质量的公共训练数据集DiverseRNA-1.4M,该数据集包含多样化的RNA-seq数据,有助于提高模型的泛化能力。与现有方法相比,TxFM更加注重数据质量和模型架构的优化。

关键设计:TxFM的关键设计包括:1) 掩码策略:采用随机掩码策略,随机遮蔽一部分基因的表达值。2) 编码器和解码器结构:使用Transformer架构作为编码器和解码器,以捕捉基因之间的长程依赖关系。3) 损失函数:使用均方误差(MSE)作为重构损失函数,衡量模型重构基因表达数据的能力。4) 数据集:使用DiverseRNA-1.4M数据集进行训练,该数据集包含来自不同组织、细胞类型和实验条件的RNA-seq数据。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

TxFM在DiverseRNA-1.4M数据集上训练后,生成了高保真基因表征,其性能优于在规模大100倍的图谱级语料库上训练的基础模型。消融研究表明,特定的模型架构配置对于实现强大的迁移性能至关重要。这些结果表明,通过精心设计模型架构和训练数据,自监督学习可以有效地用于转录组数据的表征学习。

🎯 应用场景

该研究成果可应用于药物发现、疾病诊断和个性化医疗等领域。通过学习高保真的基因表征,可以更准确地预测药物的疗效、识别疾病的生物标志物,并为患者提供更精准的治疗方案。此外,该模型还可以用于研究基因之间的相互作用和调控机制,从而深入理解细胞的功能和状态。

📄 摘要(原文)

RNA sequencing produces rich and diverse datasets of gene expression, offering compelling insights into cellular state and function that have many applications in drug discovery. Modeling such data is challenging due to inherent technical noise and experimental batch effects, as evidenced by many existing transcriptomic foundation models (FMs) underperforming relative to linear baselines. Such results raise the question of whether deep representation learning provides a distinct advantage over the direct use of raw transcript counts. Our work explores this by developing a new self-supervised model, TxFM, with a focus on inductive representation learning evaluations. TxFM employs a masked autoencoding approach tailored to diverse RNA-seq count data, and our ablation study empirically identifies crucial architecture configurations required for strong transfer performance. Additionally, we curate a public training corpus, DiverseRNA-1.4M, and find that TxFM trained on this curated dataset yields high-fidelity gene representations that outperform FMs trained on atlas-scale corpora over 100x larger. Overall, our results indicate that inductive self-supervised learning is a viable modeling approach for transcriptomics representation, provided a careful synthesis of model architecture and training data curation.