Systematic Evaluation of Single-Cell Foundation Model Interpretability Reveals Attention Captures Co-Expression Rather Than Unique Regulatory Signal

作者: Ihor Kendiukhov

分类: q-bio.GN, cs.AI

发布日期: 2026-02-19

💡 一句话要点

系统性评估单细胞Foundation模型可解释性，揭示Attention机制捕获共表达而非独特调控信号

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 单细胞基因组学 Foundation模型 可解释性 Attention机制 基因调控网络

📋 核心要点

单细胞Foundation模型的可解释性不足，难以理解其内部机制，阻碍了其在生物学研究中的应用。
提出一个系统性的评估框架，通过多种分析和统计测试，深入评估scGPT和Geneformer等模型的Attention机制。
实验表明，Attention模式主要捕获基因共表达信息，而非独特的调控信号，并提出了CSSI来改善GRN恢复。

📝 摘要（中文）

本文提出一个系统性的评估框架，包含37项分析、153个统计测试、四种细胞类型和两种扰动模式，用于评估单细胞Foundation模型中的机制可解释性。将此框架应用于scGPT和Geneformer，发现Attention模式编码了具有层特异性组织的结构化生物学信息——早期层中的蛋白质-蛋白质相互作用，后期层中的转录调控。然而，这种结构并没有为扰动预测提供增量价值：简单的基因水平基线优于Attention和相关性边（AUROC 0.81-0.88 vs 0.70），成对边得分没有增加预测贡献，并且对调控头的因果消融没有产生性能下降。这些发现从K562推广到RPE1细胞；Attention-相关性关系是上下文相关的，但基因水平的优势是普遍的。细胞状态分层可解释性（CSSI）解决了Attention机制特定的缩放失败问题，将GRN恢复率提高了1.85倍。该框架为该领域建立了可重用的质量控制标准。

🔬 方法详解

问题定义：现有单细胞Foundation模型，如scGPT和Geneformer，虽然在单细胞数据分析任务中表现出色，但其内部机制缺乏深入理解。特别是，Attention机制被认为是模型学习生物学知识的关键，但其具体捕获了哪些生物学信号，以及这些信号对下游任务的贡献尚不明确。现有方法难以区分Attention机制捕获的共表达关系和真正的基因调控关系，阻碍了模型在生物学研究中的应用。

核心思路：本文的核心思路是通过构建一个系统性的评估框架，对单细胞Foundation模型中的Attention机制进行多方面的分析和测试。该框架旨在量化Attention模式捕获的生物学信息，并评估这些信息对扰动预测等下游任务的贡献。通过比较Attention机制与简单基线的性能，以及对Attention头的因果消融实验，揭示Attention机制的真实作用。

技术框架：该评估框架包含以下主要组成部分： 1. 数据集：使用多种细胞类型（如K562和RPE1）和扰动模式的数据集。 2. 分析方法：包括37项分析和153个统计测试，涵盖Attention模式的结构、与生物学信息的关联、以及对下游任务的贡献。 3. 模型：评估scGPT和Geneformer等单细胞Foundation模型。 4. 基线：使用简单的基因水平基线作为对比，评估Attention机制的增量价值。 5. 评估指标：使用AUROC等指标评估扰动预测性能，使用GRN恢复率评估基因调控网络重建性能。

关键创新：该研究的关键创新在于： 1. 系统性的评估框架：提供了一个全面的评估单细胞Foundation模型可解释性的方法，可以作为该领域的质量控制标准。 2. 揭示Attention机制的局限性：发现Attention机制主要捕获基因共表达信息，而非独特的调控信号。 3. 提出CSSI：通过细胞状态分层，解决了Attention机制特定的缩放失败问题，提高了GRN恢复率。

关键设计： 1. Attention-相关性比较：比较Attention权重和基因共表达相关性，评估Attention机制捕获的生物学信息。 2. 因果消融实验：通过移除特定的Attention头，评估其对扰动预测性能的影响。 3. 细胞状态分层：根据细胞状态对Attention权重进行分层，解决Attention机制的缩放失败问题。 4. 基因水平基线：使用简单的基因水平基线作为对比，评估Attention机制的增量价值。

🖼️ 关键图片

📊 实验亮点

实验结果表明，简单的基因水平基线在扰动预测任务中优于Attention和相关性边（AUROC 0.81-0.88 vs 0.70）。对调控头的因果消融实验没有产生性能下降。细胞状态分层可解释性（CSSI）解决了Attention机制特定的缩放失败问题，将GRN恢复率提高了1.85倍。这些结果表明，Attention机制主要捕获基因共表达信息，而非独特的调控信号。

🎯 应用场景

该研究成果可应用于单细胞基因组学领域，帮助研究人员更好地理解单细胞Foundation模型的内部机制，并指导模型的改进和应用。通过该研究提出的评估框架，可以系统性地评估不同模型的可解释性，并为模型的设计提供指导。此外，该研究揭示的Attention机制的局限性，可以帮助研究人员开发更有效的模型，以捕获更准确的基因调控信息，从而促进药物发现和疾病诊断等应用。

📄 摘要（原文）

We present a systematic evaluation framework - thirty-seven analyses, 153 statistical tests, four cell types, two perturbation modalities - for assessing mechanistic interpretability in single-cell foundation models. Applying this framework to scGPT and Geneformer, we find that attention patterns encode structured biological information with layer-specific organisation - protein-protein interactions in early layers, transcriptional regulation in late layers - but this structure provides no incremental value for perturbation prediction: trivial gene-level baselines outperform both attention and correlation edges (AUROC 0.81-0.88 versus 0.70), pairwise edge scores add zero predictive contribution, and causal ablation of regulatory heads produces no degradation. These findings generalise from K562 to RPE1 cells; the attention-correlation relationship is context-dependent, but gene-level dominance is universal. Cell-State Stratified Interpretability (CSSI) addresses an attention-specific scaling failure, improving GRN recovery up to 1.85x. The framework establishes reusable quality-control standards for the field.

Systematic Evaluation of Single-Cell Foundation Model Interpretability Reveals Attention Captures Co-Expression Rather Than Unique Regulatory Signal

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理