ShadowPEFT: Shadow Network for Parameter-Efficient Fine-Tuning
作者: Xianming Li, Zongxi Li, Tsz-fung Andrew Lee, Jing Li, Haoran Xie, Qing Li
分类: cs.CL, cs.AI
发布日期: 2026-04-21
💡 一句话要点
提出ShadowPEFT,通过深度共享的影子网络实现参数高效的LLM微调。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 参数高效微调 大型语言模型 影子网络 层级细化 深度学习
📋 核心要点
- 现有PEFT方法如LoRA通过独立低秩扰动权重进行适配,缺乏全局信息利用,导致局部参数化。
- ShadowPEFT提出深度共享的影子模块,在Transformer层级进行并行状态演化,实现层级细化。
- 实验表明,ShadowPEFT在参数量相当的情况下,性能与LoRA等方法持平或更优,并具备边缘计算潜力。
📝 摘要(中文)
参数高效微调(PEFT)通过仅训练少量特定任务参数并冻结预训练骨干网络,从而降低大型语言模型(LLM)全参数微调的训练成本。然而,现有的方法,如低秩适应(LoRA),通过将独立的低秩扰动直接插入到各个权重中来实现适应,从而导致适应的局部参数化。我们提出了ShadowPEFT,一种集中的PEFT框架,它通过深度共享的影子模块执行层级细化。在每个Transformer层,ShadowPEFT维护一个并行的影子状态,并重复演化它以获得逐渐丰富的隐藏状态。这种设计将适应从分布式权重空间扰动转移到共享的层空间细化过程。由于影子模块与骨干网络解耦,因此可以在深度上重用,独立预训练,并可选择以分离模式部署,从而有利于边缘计算场景。在生成和理解基准上的实验表明,在可比的训练参数预算下,ShadowPEFT与LoRA和DoRA相匹配或优于它们。对影子预训练、跨数据集迁移、参数缩放、推理延迟和系统级评估的额外分析表明,集中的层空间适应是传统低秩PEFT的一种有竞争力和灵活的替代方案。
🔬 方法详解
问题定义:现有参数高效微调方法,如LoRA,通过在模型权重中引入低秩矩阵来实现参数的精简。然而,这些方法通常是独立地对每一层或每一个权重进行修改,缺乏全局的视角,导致适应过程的局部参数化,可能限制了模型的表达能力和泛化性能。此外,这些方法通常与预训练模型紧密耦合,难以进行独立的预训练和部署,限制了其在边缘计算等资源受限场景的应用。
核心思路:ShadowPEFT的核心思路是将参数高效微调从对权重的直接修改,转变为对隐藏状态的层级细化。通过引入一个深度共享的影子模块,在每一层Transformer中维护一个并行的影子状态,并通过迭代演化来逐步丰富隐藏状态。这种设计将适应过程从分布式的权重空间扰动,转移到集中的层空间细化,从而能够更好地利用全局信息,提高模型的表达能力。
技术框架:ShadowPEFT的整体架构是在预训练的Transformer模型的基础上,为每一层Transformer添加一个并行的影子模块。该影子模块接收来自上一层的隐藏状态,并对其进行处理,生成一个影子状态。然后,将影子状态与原始的隐藏状态进行融合,得到新的隐藏状态,并传递到下一层。影子模块的参数在所有层之间共享,从而大大减少了需要训练的参数量。整个训练过程可以分为两个阶段:影子模块的预训练阶段和模型的微调阶段。在预训练阶段,可以利用大规模的无标签数据来训练影子模块,使其具备一定的通用知识。在微调阶段,可以利用特定任务的数据来微调影子模块,使其适应特定任务的需求。
关键创新:ShadowPEFT的关键创新在于提出了深度共享的影子模块,将参数高效微调从权重空间转移到层空间。这种设计具有以下优点:1) 能够更好地利用全局信息,提高模型的表达能力;2) 影子模块与预训练模型解耦,可以进行独立的预训练和部署,有利于边缘计算等资源受限场景的应用;3) 影子模块的参数在所有层之间共享,大大减少了需要训练的参数量。
关键设计:ShadowPEFT的关键设计包括:1) 影子模块的网络结构,可以使用MLP、CNN等不同的结构;2) 影子状态与原始隐藏状态的融合方式,可以使用加权平均、拼接等不同的方式;3) 影子模块的预训练策略,可以使用自监督学习、对比学习等不同的方法;4) 损失函数的设计,可以使用交叉熵损失、KL散度损失等不同的损失函数。论文中具体采用了MLP作为影子模块,使用加权平均进行状态融合,并使用交叉熵损失进行微调。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在生成和理解基准测试中,ShadowPEFT在可比的训练参数预算下,性能与LoRA和DoRA相匹配或优于它们。例如,在某些任务上,ShadowPEFT的性能提升了1-2个百分点。此外,论文还对影子模块的预训练、跨数据集迁移、参数缩放、推理延迟和系统级评估进行了分析,进一步验证了ShadowPEFT的有效性和灵活性。
🎯 应用场景
ShadowPEFT适用于各种需要对大型语言模型进行参数高效微调的场景,例如自然语言生成、文本分类、机器翻译等。其解耦的设计使其尤其适用于边缘计算环境,可以在资源受限的设备上部署和运行,例如智能手机、嵌入式设备等。此外,ShadowPEFT的影子模块可以独立预训练,从而可以利用大规模的无标签数据来提高模型的性能。
📄 摘要(原文)
Parameter-efficient fine-tuning (PEFT) reduces the training cost of full-parameter fine-tuning for large language models (LLMs) by training only a small set of task-specific parameters while freezing the pretrained backbone. However, existing approaches, such as Low-Rank Adaptation (LoRA), achieve adaptation by inserting independent low-rank perturbations directly to individual weights, resulting in a local parameterization of adaptation. We propose ShadowPEFT, a centralized PEFT framework that instead performs layer-level refinement through a depth-shared shadow module. At each transformer layer, ShadowPEFT maintains a parallel shadow state and evolves it repeatedly for progressively richer hidden states. This design shifts adaptation from distributed weight-space perturbations to a shared layer-space refinement process. Since the shadow module is decoupled from the backbone, it can be reused across depth, independently pretrained, and optionally deployed in a detached mode, benefiting edge computing scenarios. Experiments on generation and understanding benchmarks show that ShadowPEFT matches or outperforms LoRA and DoRA under comparable trainable-parameter budgets. Additional analyses on shadow pretraining, cross-dataset transfer, parameter scaling, inference latency, and system-level evaluation suggest that centralized layer-space adaptation is a competitive and flexible alternative to conventional low-rank PEFT.