Same model, better performance: the impact of shuffling on DNA Language Models benchmarking

📄 arXiv: 2510.12617v2 📥 PDF

作者: Davide Greco, Konrad Rawlik

分类: q-bio.GN, cs.LG

发布日期: 2025-10-14 (更新: 2025-12-10)


💡 一句话要点

预洗牌数据提升DNA语言模型基准测试的稳定性和可靠性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: DNA语言模型 基准测试 数据洗牌 硬件依赖性 基因组学

📋 核心要点

  1. 现有DNA语言模型基准测试受硬件配置影响,导致性能评估出现高达4%的偏差,影响模型排序。
  2. 提出在数据存储前进行预洗牌,以消除硬件依赖性,确保基准测试的公平性和可靠性。
  3. 实验表明,预洗牌策略能有效消除硬件伪像,提升DNA语言模型性能评估的准确性。

📝 摘要(中文)

大型语言模型因其解码复杂生物序列的潜力而在基因组学中日益普及。因此,研究人员需要一个标准化的基准来评估DNA语言模型(DNA LMs)的能力。然而,评估DNA LMs是一项复杂的任务,它与基因组学领域特定的挑战和机器学习方法相交织,其中看似微小的实现细节可能会严重损害基准的有效性。我们通过BEND(Benchmarking DNA Language Models)展示了这一点,其中硬件相关的超参数(如数据加载worker的数量和缓冲区大小)为相同的模型产生了高达4%的虚假性能变化。问题源于不充分的数据洗牌与领域特定数据特征的相互作用。对三种DNA语言模型(HyenaDNA、DNABERT-2、ResNet-LM)的实验表明,这些伪像会影响绝对性能和相对模型排名。我们提出了一个简单的解决方案:在存储之前预先洗牌数据,从而消除硬件依赖性,同时保持效率。这项工作强调了标准的ML实践如何与领域特定的数据特征意外地相互作用,对专门领域的基准设计具有更广泛的意义。

🔬 方法详解

问题定义:现有的DNA语言模型基准测试,如BEND,在评估模型性能时,会受到硬件配置的影响,例如数据加载worker的数量和缓冲区大小。这种硬件依赖性导致即使是相同的模型,在不同的硬件环境下也会产生显著的性能差异(高达4%)。这种差异并非模型本身的优劣造成的,而是由于数据加载过程中的伪像,使得基准测试结果不可靠,无法公平地比较不同模型的性能。

核心思路:论文的核心思路是在数据存储之前,对数据进行预洗牌(pre-shuffling)。通过在数据加载之前就打乱数据的顺序,可以消除由于硬件配置和数据加载方式带来的伪像。这样,无论使用何种硬件配置,模型接收到的数据顺序都是随机的,从而避免了硬件依赖性,保证了基准测试的公平性和可靠性。

技术框架:该方法的核心在于数据预处理阶段。在将DNA序列数据存储到磁盘之前,先使用随机算法对数据进行洗牌。然后,将洗牌后的数据用于后续的模型训练和评估。在评估阶段,使用BEND基准测试框架,比较在原始数据和预洗牌数据上训练的模型的性能。使用的模型包括HyenaDNA、DNABERT-2和ResNet-LM。

关键创新:该论文的关键创新在于发现了DNA语言模型基准测试中存在的硬件依赖性问题,并提出了一个简单有效的解决方案:数据预洗牌。与传统的基准测试方法相比,该方法能够消除硬件伪像,提高基准测试的可靠性和公平性。这种方法的创新性在于它关注了数据加载过程中的细节,并找到了一个简单而有效的解决方案。

关键设计:关键设计在于预洗牌的实现方式。论文中使用了标准的随机洗牌算法,确保数据在存储之前被充分打乱。此外,论文还仔细评估了不同硬件配置下,预洗牌策略对模型性能的影响。没有涉及特别复杂的参数设置或网络结构,重点在于数据预处理步骤的改进。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在BEND基准测试中,硬件相关的超参数会导致相同的DNA语言模型性能产生高达4%的差异。通过引入预洗牌策略,可以有效消除这种硬件依赖性,提高基准测试的可靠性。实验对比了HyenaDNA、DNABERT-2和ResNet-LM三种模型在原始数据和预洗牌数据上的性能,验证了预洗牌策略的有效性。

🎯 应用场景

该研究成果可应用于基因组学、生物信息学等领域,提升DNA语言模型基准测试的可靠性和公平性,从而促进更有效的模型开发和选择。标准化的基准测试有助于研究人员更好地理解和利用DNA序列数据,加速生物学研究的进展,例如疾病诊断、药物发现等。

📄 摘要(原文)

Large Language Models are increasingly popular in genomics due to their potential to decode complex biological sequences. Hence, researchers require a standardized benchmark to evaluate DNA Language Models (DNA LMs) capabilities. However, evaluating DNA LMs is a complex task that intersects genomic's domain-specific challenges and machine learning methodologies, where seemingly minor implementation details can significantly compromise benchmark validity. We demonstrate this through BEND (Benchmarking DNA Language Models), where hardware-dependent hyperparameters -- number of data loading workers and buffer sizes -- create spurious performance variations of up to 4% for identical models. The problem stems from inadequate data shuffling interacting with domain specific data characteristics. Experiments with three DNA language models (HyenaDNA, DNABERT-2, ResNet-LM) show these artifacts affect both absolute performance and relative model rankings. We propose a simple solution: pre-shuffling data before storage eliminates hardware dependencies while maintaining efficiency. This work highlights how standard ML practices can interact unexpectedly with domain-specific data characteristics, with broader implications for benchmark design in specialized domains.