The Dark Regulome: Disentangling Predictability from Regulation in Genomic Foundation Models

📄 arXiv: 2606.06834v1 📥 PDF

作者: Chahat Baranwal, Aadtya Baranwal, Lakshya Nitin Tandon

分类: cs.CL, q-bio.GN

发布日期: 2026-06-05


💡 一句话要点

提出残差与置换诊断以解析基因组基础模型中的调控与可预测性问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 基因组学 调控机制 胶质瘤 序列基础模型 计算突变 生物信息学 精准医学

📋 核心要点

  1. 现有方法在解析肿瘤细胞基因表达调控机制时,面临调控解释不明确的挑战。
  2. 本文提出了一种残差与置换诊断方法,旨在区分可预测性与调控驱动的变异。
  3. 实验结果表明,10kb的近端调控范围在多种模型中保持显著,且不同模型间的调控信号存在明显差异。

📝 摘要(中文)

高等级胶质瘤通过功能突触与神经元整合,探讨非编码元素如何影响肿瘤细胞的突触生成基因表达。本文提出的“黑暗调控组”作为探测的基础,利用序列基础模型通过计算突变(ISM)进行分析。然而,基于似然的评分与局部序列可预测性紧密相关,导致调控解释不明确。通过对三种不同架构的基础模型(Caduceus-Ph、HyenaDNA、Enformer)和30,448个黑暗基因组元素的研究,提出了一种残差与置换诊断方法,能够区分由可预测性驱动与调控驱动的变异。研究结果显示,10kb的近端调控范围在所有控制下均保持显著,但模型间的元素分类层次并不一致。

🔬 方法详解

问题定义:本文旨在解决如何从基因组基础模型中有效区分调控与可预测性的问题。现有方法在解析调控机制时,往往无法明确区分这两者的影响。

核心思路:通过引入残差与置换诊断方法,论文能够有效地将由序列可预测性驱动的变异与由调控机制驱动的变异分开,从而提供更清晰的调控解释。

技术框架:研究涉及三种不同架构的基础模型,分别是Caduceus-Ph、HyenaDNA和Enformer。通过对30,448个黑暗基因组元素的分析,构建了一个包含残差分析和置换测试的综合框架。

关键创新:最重要的技术创新在于提出了残差与置换诊断这一新方法,能够有效区分调控信号与序列可预测性之间的关系,这在现有文献中尚属首次。

关键设计:在实验中,采用了多种控制实验来验证10kb的近端调控范围的显著性,并通过交叉验证不同模型的元素分类层次,确保结果的可靠性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,10kb的近端调控范围在所有控制下均保持显著,且Caduceus模型的前十名元素在AUC值上达到0.985。此外,所有三种模型的前100个元素在匹配脑eQTL方面均显示出3.3倍的富集,显著性水平为$p_ ext{emp} < 5 imes 10^{-3}$。

🎯 应用场景

该研究的潜在应用领域包括癌症基因组学和精准医学,能够帮助研究人员更好地理解肿瘤细胞的基因调控机制,从而为靶向治疗和个性化医疗提供理论基础。未来,该方法也可扩展至其他生物学领域的调控研究。

📄 摘要(原文)

High-grade gliomas integrate into neural circuits through functional synapses with neurons, raising the question of which noncoding elements shape synaptogenic gene expression in tumor cells. The regulatory program written across the dark genome, what we call the $\textit{dark regulome}$, is the natural substrate to probe, and sequence foundation models offer a zero-shot route through in-silico mutagenesis (ISM); yet likelihood-based scoring is tautologically coupled to local sequence predictability, leaving the regulatory interpretation underdetermined. Across three architecturally distinct foundation models (Caduceus-Ph, HyenaDNA, Enformer) and 30,448 dark genome elements at 92 glioma-relevant loci, we introduce a residualization-and-permutation diagnostic that separates predictability-driven from regulation-driven RIS variance. A sharp 10kb proximal-regulatory horizon survives every control we apply, but the LM-derived element-class hierarchy does not: a six-feature linear baseline matches Caduceus top-decile membership at AUC $= 0.985$. Cross-architecture decomposition cleanly separates a sequence-predictability layer (the two language models co-rank long well-predicted transposable elements) from a regulatory-output layer (Enformer alone retains residual cCRE-discriminative signal), with literally zero overlap between the two top-100 lists. Conservation, brain cis-eQTL, and STRING-PPI cross-checks then anchor what biology survives: top-100 elements across all three models are $3.3\times$ enriched per model for matching brain eQTLs ($p_\mathrm{emp} < 5\times 10^{-3}$), while a tempting transposable-element regulatory layer and a striking NRXN1+NLGN1 protein-pair convergence both fail proper permutation tests once those tests are constructed. We deliver the diagnostic as a general methodological tool for any ISM-based regulatory study.