Investigating Data Pruning for Pretraining Biological Foundation Models at Scale

📄 arXiv: 2512.12932v1 📥 PDF

作者: Yifan Wu, Jiyue Jiang, Xichen Ye, Yiqi Wang, Chang Zhou, Yitao Xu, Jiayang Chen, He Hu, Weizhong Zhang, Cheng Jin, Jiao Yuan, Yu Li

分类: cs.LG, cs.AI, cs.CE

发布日期: 2025-12-15

备注: Accepted by AAAI 2026


💡 一句话要点

提出基于影响力的生物数据剪枝框架,显著降低生物基础模型预训练的计算成本。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 生物基础模型 数据剪枝 影响力评估 预训练 生物信息学

📋 核心要点

  1. 现有生物基础模型预训练依赖海量数据和参数,计算成本高昂,阻碍了学术界的研究。
  2. 提出基于影响力的后验数据剪枝框架,通过子集自影响力公式高效评估样本重要性。
  3. 实验表明,该框架在RNA和蛋白质任务上均优于随机选择,且能大幅降低数据冗余。

📝 摘要(中文)

生物基础模型(BioFMs)通过在大规模生物序列上预训练,在各种生物信息学下游任务中展现出强大的潜力。然而,此类模型通常依赖数百万到数十亿的训练序列以及数十亿的参数,导致高昂的计算成本,并对可重复性和可访问性构成重大障碍,尤其对于学术实验室。为了应对这些挑战,我们研究了数据剪枝对于BioFM预训练的可行性,并提出了一个针对生物领域的后验影响力引导的数据剪枝框架。我们的方法引入了一种基于子集的自影响力公式,能够以较低的计算成本有效估计样本的重要性,并在此基础上构建了两种简单而有效的选择策略,即Top-k Influence (Top I)和Coverage-Centric Influence (CCI)。我们在两个具有代表性的BioFM,RNA-FM和ESM-C上验证了我们方法的有效性。对于RNA,我们的框架在超过99%的极端剪枝率下始终优于随机选择基线,证明了其有效性。此外,我们展示了我们的框架在使用ESM-C的蛋白质相关任务上的泛化能力。特别地,我们的coreset在RNA和蛋白质设置中甚至优于大十倍的随机子集,揭示了生物序列数据集中存在大量的冗余。这些发现强调了影响力引导的数据剪枝在大幅降低BioFM预训练的计算成本方面的潜力,为更高效、可访问和可持续的生物AI研究铺平了道路。

🔬 方法详解

问题定义:生物基础模型(BioFMs)的预训练需要大量的生物序列数据,导致计算资源消耗巨大,阻碍了其在学术界的广泛应用。现有方法缺乏有效的数据选择策略,无法在保证模型性能的同时降低数据规模。因此,如何从海量生物数据中选择最具代表性的子集,以降低预训练成本,是本文要解决的核心问题。

核心思路:本文的核心思路是利用数据样本的影响力(Influence)来指导数据剪枝。影响力是指一个样本对模型训练结果的影响程度。通过计算每个样本对模型性能的影响力,选择对模型性能贡献最大的样本子集进行预训练,从而在减少数据规模的同时,尽可能地保留模型的性能。这种方法的核心在于高效地估计样本的影响力。

技术框架:该框架主要包含以下几个阶段: 1. 预训练模型:首先,使用原始数据集训练一个初始的生物基础模型。 2. 影响力评估:然后,基于预训练的模型,使用提出的子集自影响力公式计算每个样本的影响力得分。 3. 数据选择:根据样本的影响力得分,使用Top-k Influence (Top I)或Coverage-Centric Influence (CCI)策略选择最具代表性的样本子集。 4. 模型重训练:最后,使用选择的样本子集重新训练生物基础模型。

关键创新:本文的关键创新在于提出了一个基于子集的自影响力公式,用于高效地估计样本的重要性。传统的计算影响力的方法计算复杂度高,难以应用于大规模数据集。本文提出的方法通过将样本划分为子集,并计算每个子集对模型的影响力,从而大大降低了计算复杂度。此外,本文还提出了两种简单而有效的选择策略,Top-k Influence (Top I)和Coverage-Centric Influence (CCI),用于从样本中选择最具代表性的子集。

关键设计: * 子集自影响力公式:具体公式未知,但其核心思想是将样本划分为子集,并计算每个子集对模型的影响力,从而降低计算复杂度。 * Top-k Influence (Top I):选择影响力得分最高的k个样本。 * Coverage-Centric Influence (CCI):在选择样本时,不仅考虑样本的影响力得分,还考虑样本之间的覆盖度,以选择更具多样性的样本子集。具体实现细节未知。

🖼️ 关键图片

fig_0

📊 实验亮点

实验结果表明,在RNA-FM和ESM-C两种生物基础模型上,该框架在超过99%的极端剪枝率下始终优于随机选择基线。更重要的是,该方法选择的coreset甚至优于大十倍的随机子集,揭示了生物序列数据集中存在大量的冗余。这些结果表明,该方法能够显著降低生物基础模型的预训练成本,同时保持甚至提升模型性能。

🎯 应用场景

该研究成果可广泛应用于生物信息学领域,例如基因组学、蛋白质组学和转录组学等。通过降低生物基础模型的预训练成本,可以促进生物AI研究的普及,加速新药研发、疾病诊断和个性化医疗等领域的进展。此外,该方法还可应用于其他领域的大规模数据预训练,例如自然语言处理和计算机视觉。

📄 摘要(原文)

Biological foundation models (BioFMs), pretrained on large-scale biological sequences, have recently shown strong potential in providing meaningful representations for diverse downstream bioinformatics tasks. However, such models often rely on millions to billions of training sequences and billions of parameters, resulting in prohibitive computational costs and significant barriers to reproducibility and accessibility, particularly for academic labs. To address these challenges, we investigate the feasibility of data pruning for BioFM pretraining and propose a post-hoc influence-guided data pruning framework tailored to biological domains. Our approach introduces a subset-based self-influence formulation that enables efficient estimation of sample importance at low computational cost, and builds upon it two simple yet effective selection strategies, namely Top-k Influence (Top I) and Coverage-Centric Influence (CCI). We empirically validate our method on two representative BioFMs, RNA-FM and ESM-C. For RNA, our framework consistently outperforms random selection baselines under an extreme pruning rate of over 99 percent, demonstrating its effectiveness. Furthermore, we show the generalizability of our framework on protein-related tasks using ESM-C. In particular, our coreset even outperforms random subsets that are ten times larger in both RNA and protein settings, revealing substantial redundancy in biological sequence datasets. These findings underscore the potential of influence-guided data pruning to substantially reduce the computational cost of BioFM pretraining, paving the way for more efficient, accessible, and sustainable biological AI research.