Extending Sequence Length is Not All You Need: Effective Integration of Multimodal Signals for Gene Expression Prediction
作者: Zhao Yang, Yi Duan, Jiwei Zhu, Ying Ba, Chuan Cao, Bing Su
分类: cs.LG, q-bio.GN
发布日期: 2026-02-25
备注: Accepted at ICLR 2026
💡 一句话要点
Prism框架:有效整合多模态信号,提升基因表达预测精度,无需过度依赖长序列
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 基因表达预测 多模态融合 表观基因组 因果推断 后门调整 特征选择 染色质状态
📋 核心要点
- 现有基因表达预测方法过度依赖长序列建模以寻找远端增强子,但长序列反而可能降低模型性能。
- Prism框架通过学习和整合近端多模态表观基因组信号,并采用后门调整来减轻混淆效应,从而提升预测精度。
- 实验结果表明,Prism框架仅使用短序列即可达到当前最优的基因表达预测性能,验证了其有效性。
📝 摘要(中文)
基因表达预测,即从DNA序列预测mRNA表达水平,面临着巨大的挑战。以往的研究通常侧重于扩展输入序列长度,以定位远端增强子,这些增强子可能影响数百千碱基之外的目标基因。本文首先揭示,对于当前的模型,长序列建模反而会降低性能。即使是精心设计的算法也只能缓解长序列引起的性能下降。相反,我们发现目标基因附近的近端多模态表观基因组信号更为重要。因此,我们专注于如何更好地整合这些信号,而这一点常常被忽视。我们发现,不同的信号类型具有不同的生物学作用,一些信号直接标记活跃的调控元件,而另一些信号反映了可能引入混淆效应的背景染色质模式。简单的连接可能导致模型与这些背景模式产生虚假关联。为了解决这一挑战,我们提出了Prism,一个学习高维表观基因组特征的多种组合以表示不同的背景染色质状态,并使用后门调整来减轻混淆效应的框架。实验结果表明,正确建模多模态表观基因组信号仅使用短序列即可实现最先进的基因表达预测性能。
🔬 方法详解
问题定义:基因表达预测旨在根据DNA序列预测mRNA的表达水平。现有方法主要依赖于扩展输入序列的长度,以捕捉远端增强子的影响。然而,简单地增加序列长度会导致性能下降,因为模型难以区分真正相关的信号和噪声。现有算法虽然尝试缓解这个问题,但效果有限,并且忽略了近端多模态表观基因组信号的重要性。
核心思路:论文的核心思路是,与其过度关注长序列,不如更有效地整合目标基因附近的近端多模态表观基因组信号。不同的表观基因组信号扮演着不同的生物学角色,有些直接标记活跃的调控元件,而有些则反映背景染色质模式,这些背景模式可能引入混淆效应。因此,需要一种方法来区分和处理这些不同的信号。
技术框架:Prism框架主要包含两个关键部分:一是学习高维表观基因组特征的多种组合,以表示不同的背景染色质状态;二是使用后门调整(backdoor adjustment)来减轻混淆效应。框架首先提取近端DNA序列和多种表观基因组信号。然后,通过一个特征选择模块学习不同信号的组合,以捕捉不同的染色质状态。最后,利用后门调整来消除背景染色质状态对基因表达预测的混淆影响。
关键创新:Prism框架的关键创新在于它能够有效地整合多模态表观基因组信号,并减轻背景染色质状态的混淆效应。与现有方法不同,Prism不依赖于长序列建模,而是专注于近端信号的建模。此外,Prism使用后门调整来消除混淆效应,这是一种新颖的方法,可以提高预测的准确性。
关键设计:Prism框架的关键设计包括:1) 使用特征选择模块来学习表观基因组特征的组合,以表示不同的染色质状态。这个模块可以使用各种机器学习算法,例如神经网络或决策树。2) 使用后门调整来消除混淆效应。后门调整是一种因果推断技术,可以用来估计因果效应,而不会受到混淆变量的影响。具体来说,Prism框架通过识别和阻断从背景染色质状态到基因表达的后门路径来实现后门调整。损失函数的设计需要考虑预测精度和混淆效应的消除。
🖼️ 关键图片
📊 实验亮点
实验结果表明,Prism框架在基因表达预测任务上取得了state-of-the-art的性能,即使仅使用短序列,其预测精度也优于依赖长序列的现有方法。这表明,有效整合多模态表观基因组信号比简单地扩展序列长度更为重要。具体的性能提升数据需要在论文中查找。
🎯 应用场景
该研究成果可应用于基因表达调控机制的解析、疾病相关基因的识别以及药物靶点的发现。通过更准确地预测基因表达水平,可以深入理解基因在不同生物过程中的作用,为个性化医疗和精准治疗提供理论基础和技术支持。未来,该方法可以扩展到其他生物学问题,例如蛋白质表达预测和细胞类型识别。
📄 摘要(原文)
Gene expression prediction, which predicts mRNA expression levels from DNA sequences, presents significant challenges. Previous works often focus on extending input sequence length to locate distal enhancers, which may influence target genes from hundreds of kilobases away. Our work first reveals that for current models, long sequence modeling can decrease performance. Even carefully designed algorithms only mitigate the performance degradation caused by long sequences. Instead, we find that proximal multimodal epigenomic signals near target genes prove more essential. Hence we focus on how to better integrate these signals, which has been overlooked. We find that different signal types serve distinct biological roles, with some directly marking active regulatory elements while others reflect background chromatin patterns that may introduce confounding effects. Simple concatenation may lead models to develop spurious associations with these background patterns. To address this challenge, we propose Prism, a framework that learns multiple combinations of high-dimensional epigenomic features to represent distinct background chromatin states and uses backdoor adjustment to mitigate confounding effects. Our experimental results demonstrate that proper modeling of multimodal epigenomic signals achieves state-of-the-art performance using only short sequences for gene expression prediction.