Ladder Up, Memory Down: Low-Cost Fine-Tuning With Side Nets

📄 arXiv: 2512.14237v1 📥 PDF

作者: Estelle Zheng, Nathan Cerisara, Sébastien Warichet, Emmanuel Helbert, Christophe Cerisara

分类: cs.CL, cs.LG

发布日期: 2025-12-16


💡 一句话要点

Ladder Side Tuning通过轻量级侧网络实现低成本大模型微调,显著降低内存占用。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 参数高效微调 大语言模型 侧网络 内存优化 Ladder Side Tuning

📋 核心要点

  1. 现有大模型微调方法,如QLoRA,虽然减少了可训练参数,但反向传播仍导致高内存占用。
  2. 论文提出Ladder Side Tuning (LST),通过添加轻量级侧网络,降低内存需求,同时保持性能。
  3. 实验表明,LST在内存效率上优于QLoRA,并提出了xLadder变体以增强推理能力。

📝 摘要(中文)

本文重新审视了一种鲜少被探索的参数高效微调(PEFT)技术——Ladder Side Tuning (LST),该方法通过添加轻量级侧网络进行微调。研究表明,LST在计算扩展性上与QLoRA相当,同时峰值内存占用降低50%。在涵盖自然语言理解、数学和LLM-critic任务的不同下游基准测试中,LST的平均性能与QLoRA的准确性具有竞争力,但内存效率更高。这种效率使得在单个12GB消费级GPU上,无需梯度检查点即可对具有2k token上下文的7B参数模型进行微调——而QLoRA在这种条件下会耗尽内存。此外,本文还建立了缩放定律,表明LST的缩放方式与QLoRA相似。通过引入xLadder,一种深度扩展变体,利用Ladder的架构灵活性,通过交叉连接增加有效深度,并在固定参数数量下缩短思维链(CoT)。Ladder在内存是瓶颈时表现出色;xLadder在此基础上通过无需额外内存开销即可实现更深层次的推理。

🔬 方法详解

问题定义:大语言模型(LLM)的微调受到GPU内存的限制,尤其是在消费级GPU上。现有的参数高效微调(PEFT)方法,如QLoRA,虽然减少了需要训练的参数数量,但由于完整模型在反向传播过程中仍然需要驻留在内存中,因此内存占用仍然很高。这限制了可以在低资源设备上微调的模型大小和上下文长度。

核心思路:论文的核心思路是利用Ladder Side Tuning (LST) 这种鲜少被探索的PEFT技术,通过添加一个轻量级的侧网络来学习特定任务的知识,而原始的大语言模型则保持冻结状态。这样可以显著减少需要计算梯度的参数数量,从而降低内存占用。LST的设计目标是在不显著降低模型性能的前提下,尽可能地降低微调所需的内存。

技术框架:LST方法包含两个主要部分:原始的预训练大语言模型(冻结)和一个轻量级的侧网络(可训练)。输入数据同时输入到这两个网络中。侧网络的输出与主模型的中间层或最终层的输出进行组合(例如,通过加权求和或连接)。然后,组合后的输出用于预测下游任务的目标。在训练过程中,只有侧网络的参数会被更新,而主模型的参数保持不变。xLadder是LST的扩展,通过增加侧网络的深度和引入跨层连接来增强模型的推理能力。

关键创新:LST的关键创新在于其架构的简洁性和内存效率。通过只训练一个轻量级的侧网络,LST显著降低了微调所需的内存占用,使其能够在资源受限的设备上进行大模型的微调。xLadder的创新在于通过增加侧网络的深度和引入跨层连接,在不增加过多参数的情况下,提高了模型的推理能力。这使得模型能够在更复杂的任务上表现更好,例如需要长链推理的任务。

关键设计:LST的关键设计包括侧网络的架构选择(例如,MLP、Transformer等)、侧网络与主模型的连接方式(例如,加权求和、连接等)以及训练策略(例如,学习率、优化器等)。xLadder的关键设计包括侧网络的深度、跨层连接的模式以及损失函数的设计。论文中可能还探讨了不同的参数初始化方法和正则化技术,以提高模型的泛化能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

LST在多个下游任务上取得了与QLoRA相当的性能,同时将峰值内存占用降低了50%。在单个12GB消费级GPU上,LST能够对具有2k token上下文的7B参数模型进行微调,而QLoRA会耗尽内存。xLadder通过增加侧网络的深度和引入跨层连接,在不增加过多参数的情况下,提高了模型的推理能力。

🎯 应用场景

该研究成果可广泛应用于自然语言处理领域,尤其是在资源受限的环境下进行大模型微调。例如,可以在移动设备或边缘设备上部署和微调大模型,从而实现本地化的智能服务。此外,该方法还可以应用于教育、医疗等领域,为特定任务定制高性能的模型。

📄 摘要(原文)

Fine-tuning large language models (LLMs) is often limited by the memory available on commodity GPUs. Parameter-efficient fine-tuning (PEFT) methods such as QLoRA reduce the number of trainable parameters, yet still incur high memory usage induced by the backward pass in the full model. We revisit Ladder Side Tuning (LST), a rarely explored PEFT technique that adds a lightweight side network, and show that it matches QLoRA's compute scaling slope while cutting peak memory by 50\%. Across different downstream benchmarks spanning natural language understanding, mathematical and LLM-critic tasks, LST has competitive performance with QLoRA's accuracy on average while being much more memory-efficient. This efficiency enables fine-tuning of 7B-parameter models on a single 12 GB consumer GPU with 2k-token contexts, requiring no gradient checkpointing\textemdash conditions under which QLoRA exhausts memory. Beyond memory efficiency, we also establish scaling laws showing that LST scales similarly to QLoRA. We exploit Ladder's architectural flexibility by introducing xLadder, a depth-extended variant that increases effective depth via cross-connections and shortens chain-of-thought (CoT) at fixed parameter count. Ladder is strong when memory is the bottleneck; xLadder builds on this by enabling deeper reasoning without additional memory overhead.