PlantBiMoE: A Bidirectional Foundation Model with SparseMoE for Plant Genomes
作者: Kepeng Lin, Qizhe Zhang, Rui Wang, Xuehai Hu, Wei Xu
分类: cs.LG, q-bio.GN
发布日期: 2025-12-08
备注: 6 pages, 5 figures, accept to BIBM
🔗 代码/项目: GITHUB
💡 一句话要点
PlantBiMoE:一种用于植物基因组的双向稀疏MoE基础模型
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 植物基因组 双向Mamba SparseMoE 基因组语言模型 序列建模
📋 核心要点
- 现有植物基因组语言模型参数量大,或无法有效建模DNA双链的双向依赖关系。
- PlantBiMoE结合双向Mamba和SparseMoE,在保证建模能力的同时,降低计算复杂度。
- 在MPGB基准测试中,PlantBiMoE在多个任务上取得了最佳性能,验证了其有效性。
📝 摘要(中文)
理解植物基因组的潜在语言规则是计算生物学中的一项根本性挑战。包括AgroNT和PDLLMs在内的最新进展已经取得了显著进展,但它们分别存在参数规模过大和对DNA链双向性建模能力有限的问题。为了解决这些局限性,我们提出了PlantBiMoE,一种轻量级且富有表现力的植物基因组语言模型,它集成了双向Mamba和稀疏专家混合(Sparse Mixture-of-Experts,SparseMoE)框架。双向Mamba使模型能够有效地捕获正向和反向DNA链中的结构依赖性,而SparseMoE显著减少了活跃参数的数量,从而提高了计算效率,而没有牺牲建模能力。我们在改进的植物基因组基准(Modified Plants Genome Benchmark,MPGB)上评估和测试了我们的模型,这是一个增强的基因组基准,它整合了11个代表性任务中的31个数据集,输入序列长度范围从50到6,000 bp。实验结果表明,与现有模型相比,PlantBiMoE在31个数据集中的20个上实现了最佳性能,并且平均性能最佳。总而言之,以上所有结果表明我们的模型可以有效地表示植物基因组序列,作为各种基因组任务的强大计算工具,同时为植物基因组学、基因编辑和合成生物学做出实质性贡献。代码可在https://github.com/HUST-Keep-Lin/PlantBiMoE获得。
🔬 方法详解
问题定义:现有植物基因组语言模型,如AgroNT和PDLLMs,存在参数规模过大,计算成本高昂,或者无法充分利用DNA双链的双向信息,限制了其在基因组分析任务中的应用效果。
核心思路:PlantBiMoE的核心思路是利用双向Mamba结构来捕捉DNA序列的双向依赖关系,并采用SparseMoE框架来减少模型参数量,提高计算效率。通过结合这两种技术,模型能够在保证性能的同时,降低计算成本。
技术框架:PlantBiMoE的整体架构包含一个双向Mamba模块和一个SparseMoE模块。双向Mamba模块负责编码DNA序列,同时考虑正向和反向的依赖关系。SparseMoE模块包含多个专家网络,每个专家网络处理输入序列的不同部分,从而实现参数的稀疏激活。整个流程是:输入DNA序列首先经过嵌入层,然后输入到双向Mamba模块进行编码,编码后的表示被传递到SparseMoE模块进行处理,最后输出预测结果。
关键创新:PlantBiMoE的关键创新在于将双向Mamba和SparseMoE结合起来,用于植物基因组序列建模。双向Mamba能够有效地捕捉DNA序列的双向依赖关系,而SparseMoE能够显著减少模型参数量,提高计算效率。与现有方法相比,PlantBiMoE能够在保证性能的同时,降低计算成本,更适用于大规模基因组数据的分析。
关键设计:在PlantBiMoE中,Mamba模块采用标准的Mamba结构,并将其扩展为双向版本,以同时考虑正向和反向的依赖关系。SparseMoE模块包含多个前馈神经网络作为专家网络,并使用一个门控网络来选择激活哪些专家网络。损失函数采用交叉熵损失函数,用于训练模型预测基因组序列的标签。
🖼️ 关键图片
📊 实验亮点
PlantBiMoE在MPGB基准测试中表现出色,在31个数据集中的20个上取得了最佳性能,并且平均性能也优于现有模型。这表明PlantBiMoE能够有效地表示植物基因组序列,并为各种基因组任务提供强大的计算支持。实验结果验证了双向Mamba和SparseMoE的有效性。
🎯 应用场景
PlantBiMoE可应用于植物基因组学、基因编辑和合成生物学等领域。例如,可以用于预测基因的功能、识别基因组中的关键区域、设计新的基因序列等。该模型能够为植物基因组研究提供强大的计算工具,加速相关领域的研究进展,并最终促进农业生产的发展。
📄 摘要(原文)
Understanding the underlying linguistic rules of plant genomes remains a fundamental challenge in computational biology. Recent advances including AgroNT and PDLLMs have made notable progress although, they suffer from excessive parameter size and limited ability to model the bidirectional nature of DNA strands respectively. To address these limitations, we propose PlantBiMoE, a lightweight and expressive plant genome language model that integrates bidirectional Mamba and a Sparse Mixture-of-Experts (SparseMoE) framework. The bidirectional Mamba enables the model to effectively capture structural dependencies across both the forward and reverse DNA strands, while SparseMoE significantly reduces the number of active parameters, improving computational efficiency without sacrificing modeling capacity. We evaluated and tested our model on the Modified Plants Genome Benchmark (MPGB), an enhanced genomic benchmark, which consolidates 31 datasets across 11 representative tasks, with input sequence lengths ranging from 50 to 6,000 bp. Experimental results demonstrate that PlantBiMoE achieves the best performance on 20 out of 31 datasets and the average best when comparing with existing models. In summary, all above results demonstrate that our model can effectively represent plant genomic sequences, serving as a robust computational tool for diverse genomic tasks, while making substantive contributions to plant genomics, gene editing, and synthetic biology. The code is available at: https://github.com/HUST-Keep-Lin/PlantBiMoE