From Words to Amino Acids: Does the Curse of Depth Persist?

作者: Aleena Siji, Amir Mohammad Karimi Mamaghan, Ferdinand Kapl, Tobias Höppe, Emmanouil Angelis, Andrea Dittadi, Maurice Brenner, Michael Heinzinger, Karl Henrik Johansson, Kaitlin Maile, Johannes von Oswald, Stefan Bauer

分类: cs.LG

发布日期: 2026-02-25

💡 一句话要点

揭示蛋白质语言模型深度诅咒：后期层贡献递减，效率待提升

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 蛋白质语言模型 深度学习 深度诅咒 模型效率 Transformer 自回归模型 掩码语言模型

📋 核心要点

现有蛋白质语言模型（PLM）依赖深度Transformer，但深度增加可能导致效率降低，后期层贡献小。
论文通过探测和扰动分析，研究了不同训练目标（自回归、掩码、扩散）下PLM的深度依赖性。
实验发现，PLM存在深度低效现象，后期层主要用于细化输出，对早期计算依赖减少，深度越大越明显。

📝 摘要（中文）

蛋白质语言模型（PLM）已成为广泛应用的模型，在蛋白质工程和从头设计中表现出强大的性能。与大型语言模型（LLM）类似，它们通常被训练为深度Transformer，使用下一个token或掩码token预测目标，并通过增加模型深度进行扩展。最近关于自回归LLM的研究发现了深度诅咒：后面的层对最终输出预测的贡献很小。这些发现自然引出了一个问题，即类似的深度低效是否也出现在PLM中，因为许多广泛使用的模型不是自回归的，有些是多模态的，接受蛋白质序列和结构作为输入。在这项工作中，我们对跨模型系列和尺度的六个流行的PLM进行了深度分析，涵盖了三种训练目标，即自回归、掩码和扩散，并使用统一的基于探测和扰动的测量方法量化了层贡献如何随深度演变。在所有模型中，我们观察到一致的深度依赖模式，扩展了先前关于LLM的发现：后面的层对早期计算的依赖性较小，主要用于细化最终输出分布，并且这些影响在更深的模型中越来越明显。总而言之，我们的结果表明PLM表现出一种深度低效的形式，从而激发了未来对更深度高效的架构和训练方法的研究。

🔬 方法详解

问题定义：论文旨在研究蛋白质语言模型（PLM）中是否存在类似于大型语言模型（LLM）的“深度诅咒”现象，即模型深度增加到一定程度后，后续层对最终预测结果的贡献变得很小，导致计算资源的浪费和模型效率的降低。现有PLM通常采用深度Transformer结构，但缺乏对模型深度与性能之间关系的深入分析。

核心思路：论文的核心思路是通过一系列的实验方法，量化分析PLM中每一层对最终预测结果的贡献程度，从而揭示模型深度与性能之间的关系。具体来说，论文采用了基于探测（probing）和扰动（perturbation）的方法，来评估每一层对模型输出的影响。通过这些方法，可以确定哪些层对模型的性能至关重要，哪些层的贡献相对较小。

技术框架：论文的技术框架主要包括以下几个步骤：1) 选择具有代表性的PLM模型，涵盖不同的训练目标（自回归、掩码、扩散）和模型规模；2) 设计基于探测和扰动的实验方案，用于量化分析每一层对模型输出的影响；3) 对实验结果进行统计分析，揭示模型深度与性能之间的关系；4) 总结实验结果，提出关于PLM深度效率的结论，并为未来的研究方向提供建议。

关键创新：论文的关键创新在于首次将“深度诅咒”的概念引入到蛋白质语言模型领域，并提出了系统的实验方法来量化分析PLM的深度效率。与以往的研究不同，论文不仅关注模型的整体性能，更深入地研究了模型内部每一层的贡献程度，从而为优化PLM的架构和训练方法提供了新的思路。

关键设计：论文的关键设计包括：1) 选择了六个具有代表性的PLM模型，涵盖了不同的模型架构和训练目标，保证了研究结果的普适性；2) 设计了基于探测和扰动的实验方案，能够有效地量化分析每一层对模型输出的影响；3) 采用了统一的评估指标，使得不同模型之间的结果具有可比性；4) 对实验结果进行了详细的统计分析，从而揭示了模型深度与性能之间的关系。

🖼️ 关键图片

📊 实验亮点

研究发现，所有测试的PLM都表现出深度低效的现象，即后期层对最终输出的贡献递减。更深的模型中，这种现象更加明显。这些结果表明，PLM的深度可能存在冗余，未来的研究可以探索更深度高效的架构和训练方法。

🎯 应用场景

该研究成果可应用于蛋白质工程、药物发现和合成生物学等领域。通过优化蛋白质语言模型的深度和结构，可以提高模型的效率和性能，从而加速蛋白质设计和优化过程，降低计算成本，并最终促进相关领域的创新发展。

📄 摘要（原文）

Protein language models (PLMs) have become widely adopted as general-purpose models, demonstrating strong performance in protein engineering and de novo design. Like large language models (LLMs), they are typically trained as deep transformers with next-token or masked-token prediction objectives on massive sequence corpora and are scaled by increasing model depth. Recent work on autoregressive LLMs has identified the Curse of Depth: later layers contribute little to the final output predictions. These findings naturally raise the question of whether a similar depth inefficiency also appears in PLMs, where many widely used models are not autoregressive, and some are multimodal, accepting both protein sequence and structure as input. In this work, we present a depth analysis of six popular PLMs across model families and scales, spanning three training objectives, namely autoregressive, masked, and diffusion, and quantify how layer contributions evolve with depth using a unified set of probing- and perturbation-based measurements. Across all models, we observe consistent depth-dependent patterns that extend prior findings on LLMs: later layers depend less on earlier computations and mainly refine the final output distribution, and these effects are increasingly pronounced in deeper models. Taken together, our results suggest that PLMs exhibit a form of depth inefficiency, motivating future work on more depth-efficient architectures and training methods.

From Words to Amino Acids: Does the Curse of Depth Persist?

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理