Exhaustive Circuit Mapping of a Single-Cell Foundation Model Reveals Massive Redundancy, Heavy-Tailed Hub Architecture, and Layer-Dependent Differentiation Control

📄 arXiv: 2603.11940v1 📥 PDF

作者: Ihor Kendiukhov

分类: cs.LG

发布日期: 2026-03-12


💡 一句话要点

通过全电路映射揭示单细胞基础模型中的冗余性、重尾枢纽架构和层依赖分化控制

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 单细胞基础模型 可解释性 电路映射 组合消融 因果推断 细胞分化 重尾分布

📋 核心要点

  1. 现有生物学基础模型的可解释性方法存在系统性偏差,例如选择性特征抽样。
  2. 论文提出通过全电路追踪、高阶组合消融和因果轨迹引导来克服现有方法的局限性。
  3. 实验结果表明模型存在重尾枢纽分布、层依赖分化控制,并证实模型架构是次加性的。

📝 摘要(中文)

生物学基础模型的可解释性研究依赖于选择性特征抽样、成对交互测试和观察轨迹分析,这些方法可能引入系统性偏差。本文通过在基于Transformer的单细胞基础模型Geneformer中进行全电路追踪、高阶组合消融和因果轨迹引导,解决了这些局限性。首先,对第5层所有4065个活跃稀疏自编码器特征进行全追踪,产生了1393850个显著的下游边缘,比选择性抽样扩展了27倍。这揭示了一个重尾枢纽分布,其中1.8%的特征占据了不成比例的连接,并且前20个枢纽中有40%缺乏生物学注释,表明先前选择性分析中存在系统性注释偏差。其次,对8个特征三元组进行三向组合消融表明,冗余度随着交互阶数的增加而单调加深,三向比率为0.59,而双向比率为0.74,且没有协同作用,证实了模型架构在所有测试阶数上都是次加性的。第三,轨迹引导特征控制建立了层位置和分化方向之间的因果关系。L17层的后期特征始终将细胞状态推向成熟,阳性分数为1.0。L0和L11层的早期和中期特征主要将细胞状态推离成熟,阳性分数范围为0.00到0.58。这些结果将细胞状态控制的研究从相关性转向了层依赖性的因果证据。

🔬 方法详解

问题定义:现有生物学基础模型的可解释性研究方法,如选择性特征抽样、成对交互测试和观察轨迹分析,存在系统性偏差,无法全面揭示模型的内部机制。这些方法可能导致对模型行为的不准确理解,阻碍了对生物学过程的深入研究。

核心思路:论文的核心思路是通过更全面、更严谨的方法来分析单细胞基础模型Geneformer。具体来说,采用全电路追踪来避免选择性抽样的偏差,使用高阶组合消融来研究特征之间的冗余性和协同性,并利用因果轨迹引导来建立层位置和细胞分化方向之间的因果关系。

技术框架:该研究的技术框架主要包括三个部分:1) 全电路追踪:对模型中所有活跃的稀疏自编码器特征进行追踪,以构建完整的特征连接图。2) 高阶组合消融:通过系统地消融多个特征的组合,研究特征之间的交互作用和冗余性。3) 因果轨迹引导:通过控制特定层的特征,观察细胞状态的变化,从而建立层位置和细胞分化方向之间的因果关系。

关键创新:该研究的关键创新在于采用了更全面、更严谨的方法来分析生物学基础模型。与以往的选择性抽样方法相比,全电路追踪能够揭示模型中更广泛的特征连接,避免了选择性偏差。高阶组合消融能够更深入地研究特征之间的交互作用,而因果轨迹引导则能够建立层位置和细胞分化方向之间的因果关系。

关键设计:在全电路追踪中,作者分析了第5层的所有4065个活跃稀疏自编码器特征。在高阶组合消融中,作者使用了三向组合消融,并分析了8个特征三元组。在因果轨迹引导中,作者选择了L0、L11和L17层作为代表,研究了不同层对细胞分化的影响。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

全电路追踪揭示了重尾枢纽分布,其中1.8%的特征占据了不成比例的连接。三向组合消融表明,冗余度随着交互阶数的增加而单调加深,三向比率为0.59,而双向比率为0.74。轨迹引导特征控制建立了层位置和分化方向之间的因果关系,L17层的后期特征始终将细胞状态推向成熟,阳性分数为1.0。

🎯 应用场景

该研究成果可应用于深入理解单细胞基因表达调控机制,辅助药物研发,以及优化细胞治疗策略。通过揭示模型内部的特征连接和层依赖分化控制,可以更好地理解细胞命运决定过程,从而为疾病治疗和再生医学提供新的思路。

📄 摘要(原文)

Mechanistic interpretability of biological foundation models has relied on selective feature sampling, pairwise interaction testing, and observational trajectory analysis. Each of these can introduce systematic bias. Here we present three experiments that address these limitations through exhaustive circuit tracing, higher order combinatorial ablation, and causal trajectory steering in Geneformer, a transformer based single cell foundation model. First, exhaustive tracing of all 4065 active sparse autoencoder features at layer 5 yields 1393850 significant downstream edges, a 27 fold expansion over selective sampling. This reveals a heavy tailed hub distribution in which 1.8 percent of features account for disproportionate connectivity and 40 percent of the top 20 hubs lack biological annotation. These results indicate systematic annotation bias in prior selective analyses. Second, three way combinatorial ablation across 8 feature triplets shows that redundancy deepens monotonically with interaction order, with a three way ratio of 0.59 versus a pairwise ratio of 0.74, and with zero synergy. This confirms that the model architecture is subadditive at all tested orders. Third, trajectory guided feature steering establishes a causal link between layer position and differentiation directionality. Late layer features at L17 consistently push cell states toward maturity, with fraction positive equal to 1.0. Early and mid layer features at L0 and L11 mostly push away from maturity, with fraction positive ranging from 0.00 to 0.58. Together these results move from correlation toward causal evidence for layer dependent control of cell state.