What Topological and Geometric Structure Do Biological Foundation Models Learn? Evidence from 141 Hypotheses

📄 arXiv: 2602.22289 📥 PDF

作者: Ihor Kendiukhov

分类: bio.QM, cs.LG, bio.GN

发布日期: 2026-02-28


💡 一句话要点

通过大规模假设筛选,揭示生物基础模型学习到的拓扑和几何结构

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 生物基础模型 单细胞基因表达 拓扑数据分析 几何深度学习 假设筛选

📋 核心要点

  1. 现有生物基础模型缺乏对其内部表征几何和拓扑结构的深入理解,难以判断其生物学意义。
  2. 论文提出AI驱动的大规模假设筛选方法,通过自动生成、测试和优化假设,系统性地探索模型内部结构。
  3. 实验表明模型学习到真实的几何结构,且独立训练的模型共享该结构,但该结构具有局部性。

📝 摘要(中文)

本研究旨在探究诸如scGPT和Geneformer等生物基础模型在处理单细胞基因表达数据时,其内部表征中形成的几何和拓扑结构。通过AI驱动的执行-头脑风暴循环,论文提出、测试并改进了141个几何和拓扑假设,涵盖持久同调、流形距离、跨模型对齐、社群结构和有向拓扑,并采用明确的零控制和不相交的基因池分割。研究发现,模型学习到真实的几何结构,基因嵌入邻域表现出非平凡的拓扑结构。多层次距离层级表明,流形感知度量优于欧几里得距离,可用于识别调控基因对。独立训练的模型共享这种结构,scGPT和Geneformer之间的CCA对齐产生0.80的典型相关性和72%的基因检索准确率。然而,该结构比最初看起来更局部化,在严格的零控制下,鲁棒信号集中在免疫组织中。

🔬 方法详解

问题定义:现有生物基础模型,如scGPT和Geneformer,在处理单细胞基因表达数据时,其内部表征所形成的几何和拓扑结构尚不明确。现有方法难以有效验证这些结构是否具有生物学意义,以及是否仅仅是训练过程中的伪影。因此,需要一种系统性的方法来探索和验证这些模型的内部结构。

核心思路:论文的核心思路是利用AI驱动的自动化假设筛选方法,通过大规模生成、测试和优化关于模型内部几何和拓扑结构的假设,从而系统性地揭示模型的学习机制。这种方法能够避免人工探索的局限性,并提供更全面的视角。

技术框架:该研究采用一个AI驱动的执行-头脑风暴循环。首先,AI系统(头脑风暴)自动生成一系列关于模型内部几何和拓扑结构的假设。然后,这些假设被执行器模块进行测试,并根据测试结果进行优化和改进。这个循环迭代进行,直到达到预定的收敛标准。该框架涵盖了持久同调、流形距离、跨模型对齐、社群结构和有向拓扑等多个方面。

关键创新:该研究的关键创新在于其大规模自动化假设筛选方法。与传统的人工探索方法相比,该方法能够更全面、更系统地探索模型的内部结构,并发现潜在的生物学意义。此外,该研究还采用了严格的零控制和不相交的基因池分割,以确保结果的可靠性。

关键设计:在假设生成方面,研究人员设计了一系列规则和模板,用于自动生成各种类型的几何和拓扑假设。在假设测试方面,研究人员采用了多种统计方法和机器学习技术,例如持久同调分析、流形距离计算、典型相关分析(CCA)等。此外,研究人员还设计了一系列零控制实验,以评估结果的显著性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

研究发现,生物基础模型学习到真实的几何结构,基因嵌入邻域表现出非平凡的拓扑结构。scGPT和Geneformer之间的CCA对齐产生0.80的典型相关性和72%的基因检索准确率。然而,在严格的零控制下,鲁棒信号集中在免疫组织中,表明模型学习到的结构具有局部性。

🎯 应用场景

该研究成果可应用于生物信息学领域,帮助研究人员更深入地理解生物基础模型的学习机制,并利用这些模型进行基因调控网络分析、疾病诊断和药物发现。此外,该研究提出的自动化假设筛选方法也可推广到其他机器学习模型的解释性研究中。

📄 摘要(原文)

When biological foundation models such as scGPT and Geneformer process single-cell gene expression, what geometric and topological structure forms in their internal representations? Is that structure biologically meaningful or a training artifact, and how confident should we be in such claims? We address these questions through autonomous large-scale hypothesis screening: an AI-driven executor-brainstormer loop that proposed, tested, and refined 141 geometric and topological hypotheses across 52 iterations, covering persistent homology, manifold distances, cross-model alignment, community structure, and directed topology, all with explicit null controls and disjoint gene-pool splits.Three principal findings emerge. First, the models learn genuine geometric structure. Gene embedding neighborhoods exhibit non-trivial topology, with persistent homology significant in 11 of 12 transformer layers at p < 0.05 in the weakest domain and 12 of 12 in the other two. A multi-level distance hierarchy shows that manifold-aware metrics outperform Euclidean distance for identifying regulatory gene pairs, and graph community partitions track known transcription factor target relationships. Second, this structure is shared across independently trained models. CCA alignment between scGPT and Geneformer yields canonical correlation of 0.80 and gene retrieval accuracy of 72 percent, yet none of 19 tested methods reliably recover gene-level correspondences. The models agree on the global shape of gene space but not on precise gene placement. Third, the structure is more localized than it first appears. Under stringent null controls applied across all null families, robust signal concentrates in immune tissue, while lung and external lung signals weaken substantially.