LDARNet: DNA Adaptive Representation Network with Learnable Tokenization for Genomic Modeling

📄 arXiv: 2606.04552v1 📥 PDF

作者: Daria Ledneva, Denis Kuznetsov

分类: cs.CL, q-bio.GN

发布日期: 2026-06-03


💡 一句话要点

提出LDARNet以解决基因组建模中的固定标记化问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 基因组建模 自适应标记化 无监督学习 生物信息学 深度学习

📋 核心要点

  1. 现有基因组模型普遍依赖固定的标记化方案,导致生物学结构信息的丢失。
  2. LDARNet通过动态分块和无监督学习方法,适应性地生成标记边界,克服了固定标记化的局限性。
  3. 在27个任务上微调后,LDARNet在多个基准测试中表现优异,尤其在组蛋白修饰任务上显著超越了更大模型。

📝 摘要(中文)

基因组基础模型越来越多地采用大型语言模型架构,但几乎普遍依赖于固定的标记化方案,如$k$-mers、BPE或单核苷酸,这些方案可能会掩盖生物学上相关的结构。我们提出LDARNet,这是一个拥有1.2亿参数的分层基因组基础模型,它将自回归生成中的H-Net风格动态分块适应于掩蔽语言建模,结合了BiMamba-2状态空间层、局部注意力、双向路由和基于比率的正则化器,以无监督的方式诱导自适应标记边界。在27个来自核苷酸变换器和基因组基准套件的任务上进行微调后,LDARNet在紧凑模型(<300M参数)中获得了11/18的胜利,并在5个组蛋白修饰任务上取得了最先进的结果,超越了多达20倍更大的模型。与固定网格边界相比,学习到的边界在相同计算下在组蛋白任务上提高了多达14个百分点。

🔬 方法详解

问题定义:现有的基因组建模方法通常依赖固定的标记化方案,如$k$-mers或BPE,这些方案在处理生物序列时可能会忽视重要的生物学结构,导致信息损失。

核心思路:LDARNet提出了一种动态的标记化方法,通过无监督学习自适应地确定标记边界,从而更好地捕捉基因组数据中的生物学特征。这种方法结合了自回归生成的动态分块技术,适应于掩蔽语言建模任务。

技术框架:LDARNet的整体架构包括多个主要模块:BiMamba-2状态空间层、局部注意力机制、双向路由和基于比率的正则化器。这些模块共同工作,以实现自适应标记边界的生成。

关键创新:LDARNet的最大创新在于其无监督的自适应标记化能力,学习到的边界能够有效地与生物学上重要的结构(如启动子和剪接位点)对齐,显著优于传统的固定网格标记化方法。

关键设计:在网络设计中,LDARNet使用了120M参数的分层结构,并通过微调在27个任务上进行优化。损失函数和正则化器的设计旨在促进学习到的标记边界与生物学特征的对齐。通过控制实验,验证了学习路由在性能提升中的关键作用。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

LDARNet在27个任务中表现出色,尤其是在组蛋白修饰任务上取得了最先进的结果,超越了多达20倍参数的模型。在相同计算条件下,学习到的边界在组蛋白任务上比固定网格边界提高了多达14个百分点,显示出显著的性能提升。

🎯 应用场景

LDARNet的研究成果在基因组学、个性化医疗和生物信息学等领域具有广泛的应用潜力。通过更准确的基因组建模,该模型能够帮助科学家更好地理解基因调控机制,推动新药研发和疾病预测等实际应用的发展。

📄 摘要(原文)

Genomic foundation models increasingly adopt large language model architectures, yet almost universally rely on fixed tokenization schemes such as $k$-mers, BPE, or single nucleotides, which impose arbitrary sequence boundaries that may obscure biologically relevant structure. We present LDARNet, a 120M-parameter hierarchical genomic foundation model that adapts H-Net-style dynamic chunking from autoregressive generation to masked language modeling, combining BiMamba-2 state-space layers with local attention, bidirectional routing, and a ratio-based regularizer to induce adaptive token boundaries without supervision. Fine-tuned on 27 tasks from the Nucleotide Transformer and Genomic Benchmarks suites, LDARNet achieves 11/18 wins among compact models ($<$300M parameters) and state-of-the-art results on 5 histone modification tasks, outperforming models up to 20$\times$ larger. A FLOPs-matched controlled experiment isolates learned routing as the source of these gains: learned boundaries beat fixed-grid boundaries by up to 14 percentage points on histone tasks at identical compute. Nucleotide-resolution analysis further shows that the learned boundaries align with canonical promoter motifs and splice junctions without supervision, providing a biological interpretation for adaptive tokenization in genomic foundation models.