PEFT-Arena: Understanding Parameter-Efficient Finetuning from a Stability-Plasticity Perspective
作者: Yangyi Huang, Ruotian Peng, Zeju Qiu, Jiale Kang, Yandong Wen, Bernhard Schölkopf, Weiyang Liu
分类: cs.LG, cs.CL
发布日期: 2026-05-27
备注: Technical report v1 (28 pages, 9 figures, project page: https://spherelab.ai/PEFT-Arena/)
💡 一句话要点
提出PEFT-Arena基准,从稳定性-可塑性角度评估参数高效微调方法
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 参数高效微调 稳定性-可塑性 大型语言模型 知识保留 PEFT-Arena 正交微调 路径回溯
📋 核心要点
- 现有PEFT评估侧重下游任务精度,忽略了预训练能力保持,缺乏对模型稳定性和可塑性的全面考量。
- 论文提出PEFT-Arena基准,从权重空间和激活空间分析PEFT更新,揭示不同PEFT方法的稳定性-可塑性权衡。
- 实验表明,正交微调在参数预算相当的情况下,实现了最佳的稳定性-可塑性平衡,并提出路径回溯的事后改进方法。
📝 摘要(中文)
参数高效微调(PEFT)已成为调整大型语言模型的标准方法,但评估主要侧重于下游任务的准确性,而忽略了对预训练能力的保留。我们认为,应该通过稳定性-可塑性困境来评估PEFT:即目标任务适应和抵抗遗忘之间的权衡。我们引入了PEFT-Arena,这是一个联合衡量下游性能和通用能力保留的基准。在各种方法中,我们发现了不同的稳定性-可塑性曲线;在可比的参数预算下,正交微调实现了最有利的帕累托前沿。为了解释这些差异,我们从两个几何角度分析了PEFT更新。在权重空间中,谱分析揭示了参数化如何与预训练的奇异值结构相互作用。在激活空间中,保留指标显示微调是否保留或扭曲了通用能力表示,遗忘与非等距表示扭曲有关。最后,分析表明,最终的SFT检查点通常会超过更好的目标-保留操作点。受此启发,我们提出了使用路径式回溯进行事后改进的案例研究。
🔬 方法详解
问题定义:现有参数高效微调方法(PEFT)的评估主要关注下游任务的性能,而忽略了模型在微调过程中对预训练知识的遗忘程度。这导致我们无法全面了解不同PEFT方法在适应新任务和保持原有能力之间的权衡,即稳定性-可塑性困境。现有评估方法缺乏对模型通用能力保留的有效度量。
核心思路:论文的核心思路是从稳定性-可塑性的角度来评估PEFT方法。通过构建PEFT-Arena基准,同时衡量模型在下游任务上的性能以及对预训练知识的保留程度。通过分析权重空间和激活空间的变化,理解不同PEFT方法如何影响模型的稳定性和可塑性。这种思路旨在找到一种在适应新任务的同时,尽可能保留模型原有能力的PEFT方法。
技术框架:PEFT-Arena基准主要包含以下几个部分: 1. 下游任务评估:使用标准数据集评估模型在目标任务上的性能。 2. 通用能力保留评估:设计一系列任务来评估模型对预训练知识的保留程度,例如常识推理、语言理解等。 3. 权重空间分析:通过谱分析等方法,研究PEFT更新对模型权重空间奇异值结构的影响。 4. 激活空间分析:通过计算表示相似度等指标,评估微调过程中模型激活空间表示的扭曲程度。 5. 路径回溯改进:基于对微调过程的分析,提出一种事后改进方法,通过回溯微调路径来优化模型的稳定性-可塑性平衡。
关键创新:论文的关键创新在于: 1. 提出了稳定性-可塑性困境在PEFT评估中的重要性,并构建了相应的评估基准PEFT-Arena。 2. 从权重空间和激活空间两个角度分析了PEFT更新对模型的影响,揭示了不同PEFT方法的内在机制。 3. 提出了一种基于路径回溯的事后改进方法,可以有效提升模型的稳定性-可塑性平衡。
关键设计: 1. 通用能力保留评估任务设计:精心设计了一系列任务,用于评估模型在微调后对预训练知识的保留程度,这些任务涵盖了常识推理、语言理解等多个方面。 2. 权重空间谱分析:使用奇异值分解(SVD)等方法,分析PEFT更新对模型权重矩阵奇异值谱的影响,从而了解参数化如何与预训练的奇异值结构相互作用。 3. 激活空间表示相似度计算:通过计算微调前后模型在不同层激活空间中表示的相似度,评估微调过程中表示的扭曲程度,并将其与遗忘现象联系起来。 4. 路径回溯策略:通过分析微调过程中模型性能的变化,选择合适的检查点进行回溯,以优化模型的稳定性-可塑性平衡。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在可比的参数预算下,正交微调方法在PEFT-Arena基准上取得了最佳的稳定性-可塑性平衡。通过对权重空间和激活空间的分析,揭示了不同PEFT方法的内在机制。此外,提出的路径回溯改进方法能够有效提升模型的性能,在某些情况下甚至超过了原始微调的性能。
🎯 应用场景
该研究成果可应用于各种需要对大型语言模型进行定制化微调的场景,例如智能客服、文本生成、机器翻译等。通过PEFT-Arena基准,可以选择更适合特定任务的PEFT方法,并在微调过程中更好地平衡模型的稳定性和可塑性,从而提高模型的泛化能力和鲁棒性。此外,路径回溯改进方法为事后优化模型提供了一种新的思路。
📄 摘要(原文)
Parameter-efficient finetuning (PEFT) has become the standard approach for adapting large language models, yet evaluations largely emphasize downstream accuracy while overlooking the retention of pretrained capabilities. We argue that PEFT should be assessed through the stability-plasticity dilemma: the trade-off between target-task adaptation and resistance to forgetting. We introduce PEFT-Arena, a benchmark that jointly measures downstream performance and general capability retention. Across methods, we find distinct stability-plasticity profiles; under comparable parameter budgets, orthogonal finetuning achieves the most favorable Pareto frontier. To explain these differences, we analyze PEFT updates from two geometric perspectives. In weight space, spectral analysis reveals how parameterizations interact with the pretrained singular-value structure. In activation space, retention metrics show whether finetuning preserves or distorts general-capability representations, with forgetting linked to non-isometric representation distortion. Finally, an analysis shows that final SFT checkpoints often overshoot a better target-retention operating point. Inspired by this, we present case studies of a post-hoc improvement with path-wise rewinding.