OmniGenBench: A Modular Platform for Reproducible Genomic Foundation Models Benchmarking

📄 arXiv: 2505.14402v1 📥 PDF

作者: Heng Yang, Jack Cole, Yuan Li, Renzhi Chen, Geyong Min, Ke Li

分类: q-bio.GN, cs.CL

发布日期: 2025-05-20


💡 一句话要点

OmniGenBench:用于基因组基础模型可复现基准测试的模块化平台

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 基因组基础模型 基准测试 可复现性 基因组学 人工智能 模型评估 模块化平台

📋 核心要点

  1. 基因组基础模型(GFMs)的评估面临数据透明度、模型互操作性等可复现性挑战。
  2. OmniGenBench平台通过模块化设计,统一数据、模型、基准测试和可解释性层,实现GFMs的标准化评估。
  3. OmniGenBench集成了31个开源模型,并提供自动化流程和可扩展功能,促进基因组AI研究的协作创新。

📝 摘要(中文)

基因组建模具有影响人类和生态系统的巨大潜力,而基因组基础模型(GFMs)已成为解码基因组的一种变革性方法。随着GFMs的扩展和重塑AI驱动基因组学的格局,该领域迫切需要严格和可复现的评估。本文提出了OmniGenBench,一个模块化基准测试平台,旨在统一GFMs的数据、模型、基准测试和可解释性层。OmniGenBench支持对任何GFM进行标准化的一键式评估,涵盖五个基准测试套件,并无缝集成了超过31个开源模型。通过自动化流程和社区可扩展功能,该平台解决了关键的可复现性挑战,包括数据透明度、模型互操作性、基准测试碎片化和黑盒可解释性。OmniGenBench旨在作为可复现基因组AI研究的基础设施,加速基因组规模建模时代中值得信赖的发现和协作创新。

🔬 方法详解

问题定义:基因组基础模型(GFMs)在基因组学领域展现出巨大潜力,但缺乏统一、标准化的评估平台。现有方法存在数据透明度不足、模型难以互操作、基准测试分散以及模型可解释性差等问题,阻碍了GFMs的可靠评估和进一步发展。

核心思路:OmniGenBench的核心思路是构建一个模块化的基准测试平台,将数据、模型、基准测试和可解释性整合到一个统一的框架中。通过提供标准化的评估流程和可扩展的组件,解决GFMs评估中的可复现性问题,促进公平比较和模型改进。

技术框架:OmniGenBench平台包含四个主要模块:数据层(统一基因组数据来源)、模型层(集成多种GFMs)、基准测试层(提供多种评估套件)和可解释性层(提供模型解释工具)。用户可以通过简单的命令运行整个评估流程,并根据需要扩展平台的功能。平台采用自动化流水线来保证评估过程的可复现性。

关键创新:OmniGenBench的关键创新在于其模块化和可扩展的设计,以及对可复现性的重视。它不仅提供了一个统一的评估平台,还鼓励社区参与,共同维护和扩展平台的功能。通过集成多种GFMs和基准测试套件,OmniGenBench能够全面评估GFMs的性能和特点。

关键设计:OmniGenBench的关键设计包括:1) 标准化的数据接口,方便集成不同的基因组数据集;2) 模块化的模型接口,支持快速添加新的GFMs;3) 多样化的基准测试套件,覆盖不同的基因组学任务;4) 可视化的评估结果,方便用户分析和比较不同模型的性能。具体的参数设置、损失函数和网络结构取决于所评估的GFMs。

📊 实验亮点

OmniGenBench平台集成了超过31个开源基因组基础模型,并提供了五个基准测试套件,涵盖了不同的基因组学任务。通过自动化流水线,用户可以使用一条命令对任何GFM进行标准化评估。该平台解决了数据透明度、模型互操作性、基准测试碎片化和黑盒可解释性等关键的可复现性挑战。

🎯 应用场景

OmniGenBench可应用于基因组基础模型的开发、评估和比较。研究人员可以利用该平台快速评估新模型的性能,并与其他模型进行公平比较。该平台还有助于识别GFMs的优势和局限性,指导模型改进和优化。此外,OmniGenBench可以促进基因组AI研究的协作创新,加速基因组学领域的发现。

📄 摘要(原文)

The code of nature, embedded in DNA and RNA genomes since the origin of life, holds immense potential to impact both humans and ecosystems through genome modeling. Genomic Foundation Models (GFMs) have emerged as a transformative approach to decoding the genome. As GFMs scale up and reshape the landscape of AI-driven genomics, the field faces an urgent need for rigorous and reproducible evaluation. We present OmniGenBench, a modular benchmarking platform designed to unify the data, model, benchmarking, and interpretability layers across GFMs. OmniGenBench enables standardized, one-command evaluation of any GFM across five benchmark suites, with seamless integration of over 31 open-source models. Through automated pipelines and community-extensible features, the platform addresses critical reproducibility challenges, including data transparency, model interoperability, benchmark fragmentation, and black-box interpretability. OmniGenBench aims to serve as foundational infrastructure for reproducible genomic AI research, accelerating trustworthy discovery and collaborative innovation in the era of genome-scale modeling.