GENEB: Why Genomic Models Are Hard to Compare
作者: Daria Ledneva, Mikhail Nuridinov, Denis Kuznetsov
分类: cs.CL, cs.LG, q-bio.GN
发布日期: 2026-06-03
💡 一句话要点
提出GENEB以解决基因组模型比较困难的问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 基因组模型 评估基准 机器学习 模型比较 探测协议 任务级别权衡 预训练数据 架构一致性
📋 核心要点
- 现有基因组模型的评估面临基准测试碎片化和评估协议不兼容等挑战,导致模型间的比较困难。
- 本文提出GENEB,通过统一的探测协议对40个基因组模型进行评估,涵盖多种任务和功能类别。
- 实验结果显示,模型排名在不同任务类别间波动,规模提升有限,而架构和预训练数据的匹配更为重要。
📝 摘要(中文)
基因组基础模型的进展难以评估,原因在于基准测试的碎片化、评估协议的不兼容以及任务特定的报告方式。因此,模型间的优越性或通用性声明往往无法直接比较。为此,本文提出GENEB,一个大规模诊断基准,评估来自40个基因组基础模型的冻结表示,涵盖100个任务,跨越13个功能类别,采用统一的探测协议,包括少量样本的情况。GENEB使得在模型规模、架构、标记化和预训练数据之间进行受控比较成为可能,同时明确揭示任务级别的权衡。我们的分析表明,汇总排行榜不稳定:模型排名在任务类别之间变化剧烈,规模仅提供适度且不一致的提升,而架构和预训练的一致性往往超过参数数量。这些结果突显了当前评估实践的局限性,并将GENEB定位为基因组机器学习中原则性比较和类别感知模型选择的参考框架。
🔬 方法详解
问题定义:本文旨在解决基因组模型评估中的比较困难,现有方法由于基准测试碎片化和评估协议不兼容,导致模型间的优越性声明难以直接比较。
核心思路:提出GENEB基准,通过统一的探测协议对多个基因组模型进行系统评估,确保不同模型间的可比性,揭示任务级别的权衡。
技术框架:GENEB的整体架构包括多个模块:模型选择、任务定义、评估协议和结果分析。通过这些模块,能够对模型的表现进行全面的评估和比较。
关键创新:GENEB的主要创新在于其大规模的诊断基准,能够在多个任务和功能类别下进行受控比较,填补了现有评估方法的空白。
关键设计:在设计中,GENEB采用了统一的探测协议,涵盖了不同的模型规模、架构和预训练数据,确保评估的全面性和一致性。
🖼️ 关键图片
📊 实验亮点
实验结果显示,GENEB能够有效揭示模型在不同任务类别间的表现差异,模型排名在不同类别间波动显著,且规模提升带来的性能提升有限。这些发现强调了架构和预训练数据的一致性在模型表现中的重要性。
🎯 应用场景
GENEB的研究成果可广泛应用于基因组机器学习领域,帮助研究人员和开发者在选择和比较基因组模型时做出更为科学和合理的决策。未来,GENEB可能成为基因组模型评估的标准参考框架,推动该领域的进一步发展。
📄 摘要(原文)
Progress in genomic foundation models is difficult to assess due to fragmented benchmarks, incompatible evaluation protocols, and task-specific reporting. As a result, claims of superiority or generality across models are often not directly comparable. We introduce GENEB, a large-scale diagnostic benchmark that evaluates frozen representations from 40 genomic foundation models across 100 tasks spanning 13 functional categories under a unified probing-based protocol, including few-shot regimes. GENEB enables controlled comparison across model scale, architecture, tokenization, and pretraining data while explicitly exposing task-level trade-offs. Our analysis shows that aggregate leaderboards are unstable: model rankings vary sharply across task categories, scale provides only modest and inconsistent gains, and architectural and pretraining alignment frequently outweigh parameter count. These results highlight limitations of current evaluation practices and position GENEB as a reference framework for principled comparison and category-aware model selection in genomic machine learning.