A Cross Modal Knowledge Distillation & Data Augmentation Recipe for Improving Transcriptomics Representations through Morphological Features

📄 arXiv: 2505.21317v1 📥 PDF

作者: Ihab Bendidi, Yassir El Mesbahi, Alisandra K. Denton, Karush Suri, Kian Kenyon-Dean, Auguste Genovesio, Emmanuel Noutahi

分类: cs.LG, cs.AI

发布日期: 2025-05-27

备注: ICML 2025 Main Proceedings


💡 一句话要点

提出跨模态知识蒸馏与数据增强方法,利用形态学特征提升转录组学表征

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 转录组学 知识蒸馏 跨模态学习 数据增强 形态学特征 弱配对数据 细胞生物学

📋 核心要点

  1. 细胞对刺激的反应至关重要,但转录组学数据量有限,难以充分利用显微图像的丰富信息。
  2. 论文提出跨模态知识蒸馏框架,利用Semi-Clipped和PEA增强转录组学表征,融合形态学信息。
  3. 实验表明,该方法提高了转录组学的预测能力,并保留了其可解释性,实现了更优的单模态表征。

📝 摘要(中文)

理解细胞对刺激的反应对于生物学发现和药物开发至关重要。转录组学提供可解释的基因水平信息,而显微镜成像提供丰富的预测特征,但难以解释。弱配对数据集(样本共享生物状态)支持多模态学习,但数据稀缺限制了其在训练和多模态推理中的应用。我们提出了一个框架,通过从显微镜图像中提取知识来增强转录组学。利用弱配对数据,我们的方法对齐并绑定模态,用形态学信息丰富基因表达表征。为了解决数据稀缺问题,我们引入了(1) Semi-Clipped,一种CLIP的变体,用于使用预训练基础模型的跨模态蒸馏,实现了最先进的结果,以及(2) PEA(扰动嵌入增强),一种新颖的增强技术,增强转录组学数据,同时保留固有的生物信息。这些策略提高了转录组学的预测能力并保留了解释性,从而为复杂的生物学任务实现了丰富的单模态表征。

🔬 方法详解

问题定义:论文旨在解决转录组学数据稀缺的问题,以及如何有效利用显微镜图像的形态学信息来增强转录组学表征。现有方法难以充分利用弱配对的多模态数据,并且缺乏有效的数据增强策略来应对数据不足的挑战。

核心思路:核心思路是通过跨模态知识蒸馏,将显微镜图像中蕴含的形态学知识迁移到转录组学表征中,从而提升转录组学的预测能力和可解释性。同时,设计数据增强方法,在保留生物信息的前提下,扩充转录组学数据集。

技术框架:整体框架包含两个主要部分:1) 基于Semi-Clipped的跨模态知识蒸馏,利用预训练的CLIP模型,将显微镜图像的特征迁移到转录组学数据中;2) PEA(Perturbation Embedding Augmentation)数据增强方法,通过在嵌入空间中进行扰动,生成新的转录组学样本。框架首先使用弱配对数据训练Semi-Clipped模型,然后利用该模型进行知识蒸馏,最后使用PEA进行数据增强,从而提升转录组学表征的质量。

关键创新:主要创新点包括:1) 提出了Semi-Clipped,一种针对弱配对数据的跨模态知识蒸馏方法,通过对CLIP模型进行调整,使其更适合于转录组学和显微镜图像的模态对齐;2) 提出了PEA数据增强方法,该方法能够在保留生物信息的前提下,有效地扩充转录组学数据集。

关键设计:Semi-Clipped的关键设计在于对CLIP模型的损失函数进行了修改,使其更关注于弱配对数据中的模态对齐。PEA的关键设计在于在嵌入空间中进行扰动,并使用生物学知识来约束扰动的方向和幅度,从而保证生成的新样本具有生物学合理性。具体的参数设置和网络结构细节在论文中进行了详细描述(未知)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文提出的Semi-Clipped方法在跨模态知识蒸馏任务中取得了state-of-the-art的结果。PEA数据增强方法能够有效提升转录组学模型的性能,并在多个生物学预测任务中取得了显著的提升(具体性能数据未知)。实验结果表明,该方法能够有效地融合显微镜图像的形态学信息,并提升转录组学表征的质量。

🎯 应用场景

该研究成果可应用于药物发现、疾病诊断和生物学研究等领域。通过提升转录组学的预测能力和可解释性,可以更准确地预测细胞对药物或疾病的反应,从而加速药物研发进程,并为个性化医疗提供更可靠的依据。此外,该方法还可以用于研究细胞的复杂生物学过程,例如细胞分化和发育。

📄 摘要(原文)

Understanding cellular responses to stimuli is crucial for biological discovery and drug development. Transcriptomics provides interpretable, gene-level insights, while microscopy imaging offers rich predictive features but is harder to interpret. Weakly paired datasets, where samples share biological states, enable multimodal learning but are scarce, limiting their utility for training and multimodal inference. We propose a framework to enhance transcriptomics by distilling knowledge from microscopy images. Using weakly paired data, our method aligns and binds modalities, enriching gene expression representations with morphological information. To address data scarcity, we introduce (1) Semi-Clipped, an adaptation of CLIP for cross-modal distillation using pretrained foundation models, achieving state-of-the-art results, and (2) PEA (Perturbation Embedding Augmentation), a novel augmentation technique that enhances transcriptomics data while preserving inherent biological information. These strategies improve the predictive power and retain the interpretability of transcriptomics, enabling rich unimodal representations for complex biological tasks.