Spectral Insights into Data-Oblivious Critical Layers in Large Language Models
作者: Xuyuan Liu, Lei Hsiung, Yaoqing Yang, Yujun Yan
分类: cs.LG, cs.CL
发布日期: 2025-05-31 (更新: 2025-06-04)
备注: Accepted by Findings of ACL2025
💡 一句话要点
提出数据无关方法识别LLM中的关键层,提升模型可解释性和鲁棒性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 关键层识别 数据无关方法 中心核对齐 领域自适应 后门防御 模型可解释性
📋 核心要点
- 现有关键层识别方法依赖于微调后的数据分析,缺乏通用性和前瞻性。
- 通过中心核对齐(CKA)分析表示动态,无需数据即可识别预训练LLM中的关键层。
- 实验表明,微调关键层可有效进行领域自适应,冻结关键层可防御后门攻击。
📝 摘要(中文)
理解大型语言模型(LLM)中特征表示在各层之间的演变,对于提高其可解释性和鲁棒性至关重要。虽然最近的研究已经确定了与特定功能或行为相关的关键层,但这些工作通常依赖于对微调模型的依赖数据的分析,限制了它们在事后设置中的使用。与此相反,我们引入了一种数据无关的方法,通过分析基于中心核对齐(CKA)的表示动态来识别预微调LLM中的内在关键层。我们表明,表示空间中发生显著变化的层也是在微调期间受影响最大的层——这种模式对于给定模型的跨任务保持一致。我们的频谱分析进一步表明,这些变化是由顶部主成分的变化驱动的,这些主成分编码了从理由到结论的语义转换。我们进一步将这些发现应用于两个实际场景:高效的领域自适应,其中微调关键层比非关键层导致更大的损失减少;以及后门防御,其中冻结它们可将攻击成功率降低高达40%。
🔬 方法详解
问题定义:现有方法在识别大型语言模型(LLM)中的关键层时,通常依赖于对微调后的模型进行数据相关的分析。这种方法的局限性在于,它只能在事后分析中使用,并且无法推广到其他任务或模型。此外,这种方法也无法揭示预训练模型中内在的关键层结构。因此,需要一种数据无关的方法来识别LLM中的关键层,从而提高模型的可解释性和鲁棒性。
核心思路:本文的核心思路是通过分析预训练LLM中各层表示的动态变化来识别关键层。具体来说,作者使用中心核对齐(Centered Kernel Alignment,CKA)来衡量不同层之间的表示相似度。CKA能够捕捉表示空间中的细微变化,从而识别出表示发生显著变化的层。作者假设,这些表示发生显著变化的层就是LLM中的关键层,因为它们在模型学习过程中起着重要的作用。
技术框架:该方法主要包含以下几个阶段:1) 使用预训练的LLM提取各层的表示;2) 使用CKA计算各层之间的表示相似度;3) 分析CKA矩阵,识别表示发生显著变化的层;4) 将识别出的关键层应用于下游任务,例如领域自适应和后门防御。整个流程无需对模型进行微调,因此是一种数据无关的方法。
关键创新:该方法最重要的技术创新点在于,它提出了一种数据无关的方法来识别LLM中的关键层。与现有方法相比,该方法无需对模型进行微调,因此可以应用于更广泛的场景。此外,该方法还能够揭示预训练模型中内在的关键层结构,从而为理解LLM的工作原理提供了新的视角。
关键设计:在CKA计算中,作者使用了线性核函数。此外,作者还对CKA矩阵进行了谱分析,以识别表示变化的主要方向。在领域自适应任务中,作者只微调了识别出的关键层,而冻结了其他层。在后门防御任务中,作者冻结了识别出的关键层,以阻止后门攻击。
🖼️ 关键图片
📊 实验亮点
实验结果表明,微调关键层比非关键层能够更有效地进行领域自适应,显著降低损失。在后门防御方面,冻结关键层能够将攻击成功率降低高达40%。这些结果验证了该方法在识别LLM关键层方面的有效性,并展示了其在实际应用中的潜力。
🎯 应用场景
该研究成果可应用于多种场景,例如:1) 高效的领域自适应,通过只微调关键层来降低计算成本;2) 后门防御,通过冻结关键层来提高模型的安全性;3) 模型压缩,通过移除非关键层来减小模型大小。此外,该研究还可以帮助研究人员更好地理解LLM的工作原理,从而设计出更有效、更鲁棒的模型。
📄 摘要(原文)
Understanding how feature representations evolve across layers in large language models (LLMs) is key to improving their interpretability and robustness. While recent studies have identified critical layers linked to specific functions or behaviors, these efforts typically rely on data-dependent analyses of fine-tuned models, limiting their use to post-hoc settings. In contrast, we introduce a data-oblivious approach to identify intrinsic critical layers in pre-fine-tuned LLMs by analyzing representation dynamics via Centered Kernel Alignment(CKA). We show that layers with significant shifts in representation space are also those most affected during fine-tuning--a pattern that holds consistently across tasks for a given model. Our spectral analysis further reveals that these shifts are driven by changes in the top principal components, which encode semantic transitions from rationales to conclusions. We further apply these findings to two practical scenarios: efficient domain adaptation, where fine-tuning critical layers leads to greater loss reduction compared to non-critical layers; and backdoor defense, where freezing them reduces attack success rates by up to 40%.