Entropy, Disagreement, and the Limits of Foundation Models in Genomics
作者: Maxime Rochkoulets, Lovro Vrček, Mile Šikić
分类: cs.LG, cs.CL, bio.GN
发布日期: 2026-04-07
💡 一句话要点
揭示基因组序列高熵特性对基因组Foundation Model性能的限制
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 基因组学 Foundation Model 熵 自监督学习 Fisher信息 模型集成 DNA序列
📋 核心要点
- 基因组Foundation Model效果不佳,原因在于基因组序列的高熵特性,导致模型难以有效学习。
- 通过分析模型集成在文本和DNA序列上的预测、嵌入和Fisher信息流,揭示了基因组序列高熵带来的问题。
- 实验表明,高熵导致模型输出分布均匀、模型间不一致,且模型未能有效利用token间的关系。
📝 摘要(中文)
基因组领域的Foundation Model与自然语言处理领域相比,成功程度参差不齐。本文研究了熵作为限制此类模型从训练数据中学习和发展基础能力的关键因素。通过在文本和DNA序列上训练模型集成,并分析它们的预测、静态嵌入和经验Fisher信息流,结果表明,从预测未见token的角度来看,基因组序列的高熵导致近乎均匀的输出分布、模型间的不一致以及不稳定的静态嵌入,即使对于架构、训练和数据相匹配的模型也是如此。进一步证明,在DNA上训练的模型将Fisher信息集中在嵌入层中,似乎未能利用token间的关系。研究结果表明,仅从序列进行自监督训练可能不适用于基因组数据,对当前基因组Foundation Model训练方法的基本假设提出了质疑。
🔬 方法详解
问题定义:基因组Foundation Model在基因组数据上的表现不如NLP领域,现有方法未能充分理解和解决基因组序列的特殊性质,例如高熵特性。现有方法未能有效利用基因组序列中token之间的关系,导致模型泛化能力不足。
核心思路:通过分析模型在基因组序列上的预测分布、静态嵌入和Fisher信息流,研究基因组序列的高熵特性对模型性能的影响。核心在于揭示高熵如何影响模型的学习过程,以及模型如何处理基因组序列中的token关系。
技术框架:该研究采用模型集成的方法,在文本和DNA序列上训练多个模型。然后,分析这些模型的预测分布(熵)、静态嵌入的稳定性以及经验Fisher信息流。通过对比模型在文本和DNA序列上的表现,揭示基因组序列高熵带来的问题。
关键创新:该研究的关键创新在于将信息论中的熵的概念引入基因组Foundation Model的研究中,并证明了基因组序列的高熵特性是限制模型性能的关键因素。此外,该研究还揭示了模型在处理基因组序列时,未能有效利用token间关系的问题。
关键设计:研究中使用了多个模型进行集成,以提高结果的可靠性。通过分析模型的预测分布,计算熵值,评估模型预测的不确定性。通过分析静态嵌入的稳定性,评估模型学习到的表示的质量。通过分析Fisher信息流,评估模型对不同层级的特征的学习能力。
🖼️ 关键图片
📊 实验亮点
研究表明,基因组序列的高熵导致模型输出分布接近均匀分布,模型之间预测结果不一致,静态嵌入不稳定。此外,模型在DNA序列上训练时,Fisher信息集中在嵌入层,未能有效利用token间的关系。这些结果表明,直接将NLP领域的自监督学习方法应用于基因组数据可能存在问题。
🎯 应用场景
该研究成果可应用于基因组Foundation Model的设计和训练,指导开发更有效的基因组序列学习算法。通过降低基因组序列的熵,或设计能够有效利用token间关系的架构,有望提升基因组Foundation Model在基因预测、疾病诊断和药物发现等领域的应用效果。
📄 摘要(原文)
Foundation models in genomics have shown mixed success compared to their counterparts in natural language processing. Yet, the reasons for their limited effectiveness remain poorly understood. In this work, we investigate the role of entropy as a fundamental factor limiting the capacities of such models to learn from their training data and develop foundational capabilities. We train ensembles of models on text and DNA sequences and analyze their predictions, static embeddings, and empirical Fisher information flow. We show that the high entropy of genomic sequences -- from the point of view of unseen token prediction -- leads to near-uniform output distributions, disagreement across models, and unstable static embeddings, even for models that are matched in architecture, training and data. We then demonstrate that models trained on DNA concentrate Fisher information in embedding layers, seemingly failing to exploit inter-token relationships. Our results suggest that self-supervised training from sequences alone may not be applicable to genomic data, calling into question the assumptions underlying current methodologies for training genomic foundation models.