GenomeQA: Benchmarking General Large Language Models for Genome Sequence Understanding

📄 arXiv: 2604.05774v1 📥 PDF

作者: Weicai Long, Yusen Hou, Junning Feng, Houcheng Su, Shuo Yang, Donglin Xie, Yanlin Zhang

分类: q-bio.GN, cs.CL

发布日期: 2026-04-07

备注: 18 pages, 9 figures, coference


💡 一句话要点

GenomeQA:评估通用大语言模型在基因组序列理解中的能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 基因组序列理解 大型语言模型 基准测试 基因组学 序列分析

📋 核心要点

  1. 现有基因组学benchmark缺乏对通用LLM直接处理原始基因组序列能力的评估。
  2. GenomeQA基准通过涵盖多种基因组任务的序列数据,为评估LLM提供受控环境。
  3. 实验表明LLM能利用局部序列信息,但在复杂推理任务中性能下降,揭示了其局限性。

📝 摘要(中文)

大型语言模型(LLMs)越来越多地被用作基因组学中的对话助手,主要通过自然语言界面来推理生物学知识、注释和分析结果。然而,现有的基准测试要么侧重于为序列预测而训练的专用DNA模型,要么使用纯文本问题评估生物学知识,而通用LLMs直接暴露于原始基因组序列时的行为仍未得到充分探索。我们引入了GenomeQA,这是一个旨在为通用LLMs在基于序列的基因组推理任务上提供受控评估环境的基准。GenomeQA包含来自多个生物数据库的5,200个样本,序列长度从6到1,000个碱基对(bp)不等,涵盖六个任务族:增强子和启动子识别、剪接位点识别、分类学分类、组蛋白修饰预测、转录因子结合位点预测和TF基序预测。在六个前沿LLMs上,我们发现模型始终优于随机基线,并且可以利用局部序列信号(如GC含量和短基序),而对于需要对序列模式进行更间接或多步推理的任务,性能会下降。GenomeQA建立了一个诊断基准,用于研究和改进通用LLMs在原始基因组序列上的使用。

🔬 方法详解

问题定义:论文旨在解决通用大型语言模型(LLMs)在直接处理和理解原始基因组序列方面的能力评估问题。现有的基因组学benchmark通常侧重于特定DNA模型或使用文本问题评估生物学知识,缺乏对通用LLMs在序列层面的推理能力的深入考察。因此,如何有效评估LLMs在基因组序列理解任务中的表现,并识别其优势和局限性,成为一个亟待解决的问题。

核心思路:论文的核心思路是构建一个专门的基准数据集GenomeQA,该数据集包含多种基因组序列相关的任务,例如增强子和启动子识别、剪接位点识别等。通过让LLMs直接处理这些序列数据,并评估其在不同任务上的表现,从而全面了解LLMs在基因组序列理解方面的能力。这种方法能够直接评估LLMs对原始序列信息的利用能力,避免了依赖外部知识库或文本描述的间接评估方式。

技术框架:GenomeQA基准数据集包含5,200个样本,序列长度从6到1,000个碱基对不等,涵盖六个任务族:增强子和启动子识别、剪接位点识别、分类学分类、组蛋白修饰预测、转录因子结合位点预测和TF基序预测。研究人员使用六个前沿LLMs(具体模型名称未知)在GenomeQA上进行评估,并与随机基线进行比较。评估指标根据具体任务而定,例如分类任务使用准确率等。

关键创新:GenomeQA的关键创新在于其专注于评估通用LLMs直接处理原始基因组序列的能力。与以往侧重于知识推理或特定DNA模型的benchmark不同,GenomeQA提供了一个更直接、更全面的评估框架。此外,GenomeQA涵盖了多种基因组序列相关的任务,能够更全面地评估LLMs在不同方面的能力。

关键设计:GenomeQA数据集的设计考虑了序列长度、任务类型和数据来源的多样性。序列长度范围从6到1,000个碱基对,以覆盖不同任务的需求。任务类型涵盖了基因组序列理解的多个方面,例如调控元件识别、剪接位点识别等。数据来源于多个生物数据库,以保证数据的可靠性和代表性。具体的参数设置、损失函数、网络结构等技术细节取决于所使用的LLM模型,论文中未详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,通用LLMs在GenomeQA基准上始终优于随机基线,能够利用局部序列信号(如GC含量和短基序)。然而,对于需要更间接或多步推理的任务,性能会下降。这表明LLMs在处理复杂基因组序列推理任务时仍存在局限性,需要进一步改进。

🎯 应用场景

该研究成果可应用于基因组学研究的多个领域,例如基因调控元件的识别、疾病相关基因的预测、以及个性化医疗的开发。通过提升LLM对基因组序列的理解能力,可以加速基因组学研究的进程,并为生物医药领域带来新的突破。未来,该研究可以扩展到其他生物序列数据,例如蛋白质序列和RNA序列,从而构建更全面的生物序列理解平台。

📄 摘要(原文)

Large Language Models (LLMs) are increasingly adopted as conversational assistants in genomics, where they are mainly used to reason over biological knowledge, annotations, and analysis outputs through natural language interfaces. However, existing benchmarks either focus on specialized DNA models trained for sequence prediction or evaluate biological knowledge using text-only questions, leaving the behavior of general-purpose LLMs when directly exposed to raw genome sequences underexplored. We introduce GenomeQA, a benchmark designed to provide a controlled evaluation setting for general-purpose LLMs on sequence-based genome inference tasks. GenomeQA comprises 5,200 samples drawn from multiple biological databases, with sequence lengths ranging from 6 to 1,000 base pairs (bp), spanning six task families: Enhancer and Promoter Identification, Splice Site Identification, Taxonomic Classification, Histone Mark Prediction, Transcription Factor Binding Site Prediction, and TF Motif Prediction. Across six frontier LLMs, we find that models consistently outperform random baselines and can exploit local sequence signals such as GC content and short motifs, while performance degrades on tasks that require more indirect or multi-step inference over sequence patterns. GenomeQA establishes a diagnostic benchmark for studying and improving the use of general-purpose LLMs on raw genomic sequences.