scRNA-seq Data Clustering by Cluster-aware Iterative Contrastive Learning

📄 arXiv: 2312.16600v1 📥 PDF

作者: Weikang Jiang, Jinxian Wang, Jihong Guan, Shuigeng Zhou

分类: q-bio.GN, cs.AI, cs.LG

发布日期: 2023-12-27


💡 一句话要点

提出基于簇感知的迭代对比学习方法CICL,用于提升scRNA-seq数据聚类性能。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 单细胞RNA测序 scRNA-seq 聚类 对比学习 Transformer 无监督学习 细胞类型鉴定

📋 核心要点

  1. 现有scRNA-seq数据聚类方法难以充分利用数据内在结构,导致聚类精度受限。
  2. CICL通过迭代对比学习框架,利用簇感知对比损失逐步优化scRNA-seq数据的聚类表示。
  3. 实验结果表明,CICL在多个真实数据集上显著优于现有方法,聚类性能提升显著。

📝 摘要(中文)

单细胞RNA测序(scRNA-seq)技术使研究人员能够在单细胞水平上分析基因表达。scRNA-seq数据分析中的一项重要任务是无监督聚类,它有助于识别不同的细胞类型,为其他下游分析任务奠定基础。本文提出了一种新的scRNA-seq数据聚类方法,称为簇感知迭代对比学习(CICL)。CICL利用迭代表示学习和聚类框架,通过簇感知的对比损失逐步学习scRNA-seq数据的聚类结构。CICL由Transformer编码器、聚类头、投影头和对比损失模块组成。首先,CICL通过Transformer编码器提取原始数据和增强数据的特征向量。然后,它通过K-means计算聚类中心,并使用学生t分布将伪标签分配给聚类头中的所有细胞。投影头使用多层感知器(MLP)来获得增强数据的投影。最后,伪标签和投影都用于对比损失中,以指导模型训练。这个过程迭代进行,从而使聚类结果越来越好。在25个真实世界scRNA-seq数据集上的大量实验表明,CICL优于SOTA方法。具体而言,CICL在ARI和NMI性能指标方面分别超过现有方法14%到280%,平均超过5%到133%。

🔬 方法详解

问题定义:scRNA-seq数据聚类的目标是将单细胞根据其基因表达谱进行分组,从而识别不同的细胞类型。现有方法的痛点在于难以有效利用scRNA-seq数据的高维、稀疏和噪声特性,导致聚类结果不准确,细胞类型识别困难。

核心思路:CICL的核心思路是利用迭代对比学习,通过不断优化细胞的表示,使其在特征空间中更好地聚集在一起。簇感知对比损失的设计,使得模型能够关注簇内的相似性和簇间的差异性,从而提升聚类效果。迭代的过程使得模型能够逐步修正聚类结果,最终得到更准确的细胞类型划分。

技术框架:CICL的整体框架包含以下几个主要模块:1) Transformer编码器:用于提取原始和增强数据的特征向量。2) 聚类头:使用K-means算法计算聚类中心,并使用学生t分布分配伪标签。3) 投影头:使用MLP将增强数据投影到对比学习空间。4) 对比损失模块:利用伪标签和投影计算对比损失,指导模型训练。整个流程迭代进行,直到聚类结果收敛。

关键创新:CICL的关键创新在于簇感知的迭代对比学习框架。传统的对比学习方法通常只关注样本之间的相似性,而忽略了簇结构的信息。CICL通过引入簇感知对比损失,使得模型能够同时关注簇内的相似性和簇间的差异性,从而更好地学习scRNA-seq数据的聚类结构。迭代学习的方式也使得模型能够逐步优化聚类结果,避免陷入局部最优。

关键设计:CICL的关键设计包括:1) 使用Transformer编码器提取特征,能够有效捕捉基因之间的复杂关系。2) 使用K-means算法初始化聚类中心,并使用学生t分布分配伪标签,能够提供较好的聚类先验信息。3) 设计簇感知对比损失,鼓励簇内样本的相似性,抑制簇间样本的相似性。4) 迭代学习的策略,使得模型能够逐步优化聚类结果。

📊 实验亮点

CICL在25个真实scRNA-seq数据集上进行了广泛的实验,结果表明CICL显著优于现有的SOTA方法。具体来说,CICL在ARI指标上平均提升5%到133%,最高提升280%;在NMI指标上平均提升14%到280%,最高提升133%。这些结果表明CICL在scRNA-seq数据聚类方面具有显著的优势。

🎯 应用场景

CICL在单细胞基因组学研究中具有广泛的应用前景,可用于细胞类型鉴定、细胞状态分析、疾病机制研究和药物靶点发现。通过准确的细胞聚类,研究人员可以更好地理解细胞的异质性,揭示疾病发生发展的分子机制,并为精准医疗提供新的思路。

📄 摘要(原文)

Single-cell RNA sequencing (scRNA-seq) enables researchers to analyze gene expression at single-cell level. One important task in scRNA-seq data analysis is unsupervised clustering, which helps identify distinct cell types, laying down the foundation for other downstream analysis tasks. In this paper, we propose a novel method called Cluster-aware Iterative Contrastive Learning (CICL in short) for scRNA-seq data clustering, which utilizes an iterative representation learning and clustering framework to progressively learn the clustering structure of scRNA-seq data with a cluster-aware contrastive loss. CICL consists of a Transformer encoder, a clustering head, a projection head and a contrastive loss module. First, CICL extracts the feature vectors of the original and augmented data by the Transformer encoder. Then, it computes the clustering centroids by K-means and employs the student t-distribution to assign pseudo-labels to all cells in the clustering head. The projection-head uses a Multi-Layer Perceptron (MLP) to obtain projections of the augmented data. At last, both pseudo-labels and projections are used in the contrastive loss to guide the model training. Such a process goes iteratively so that the clustering result becomes better and better. Extensive experiments on 25 real world scRNA-seq datasets show that CICL outperforms the SOTA methods. Concretely, CICL surpasses the existing methods by from 14% to 280%, and from 5% to 133% on average in terms of performance metrics ARI and NMI respectively.