Solo Connection: A Parameter Efficient Fine-Tuning Technique for Transformers

📄 arXiv: 2507.14353v1 📥 PDF

作者: Harsh Nilesh Pathak, Randy Paffenroth

分类: cs.LG, cs.AI, cs.CL

发布日期: 2025-07-18

期刊: ICML SIM workshop 2025


💡 一句话要点

提出Solo Connection,一种参数高效的Transformer微调技术,提升自然语言生成性能。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 参数高效微调 Transformer 自然语言生成 低秩适应 跳跃连接

📋 核心要点

  1. 现有参数高效微调方法如LoRA主要调整Transformer解码器块内的注意力权重矩阵,忽略了块级别的表示适应。
  2. Solo Connection通过在解码器块级别调整表示,引入可训练的线性变换,实现零向量和任务特定表示之间的平滑插值。
  3. 实验表明,Solo Connection在自然语言生成任务上优于LoRA,同时显著减少了可训练参数的数量。

📝 摘要(中文)

参数高效微调(PEFT)是一种通用且可扩展的方法,用于将大型语言模型(LLM)适配到新的任务。低秩适应(LoRA)是PEFT中最突出的方法之一,主要侧重于调整生成式预训练Transformer(GPT2)中各个解码器块内的注意力权重矩阵。与此相反,我们引入了Solo Connection,一种新颖的方法,它在解码器块级别调整表示,而不是修改单个权重矩阵。Solo Connection不仅在端到端自然语言生成基准测试中优于LoRA,而且相对于LoRA,它还减少了59%的可训练参数,并且与GPT2(大型语言模型的早期版本)的完全微调相比,减少了99%以上。Solo Connection也受到同伦理论的启发:我们引入了一个可训练的线性变换,该变换在零向量和特定于任务的表示之间逐渐插值,从而实现随时间的平滑和稳定适应。虽然原始12层GPT2中的跳跃连接通常仅限于单个解码器块,但随后的GPT2变体扩展到48层,甚至更大的语言模型可以包括128个或更多解码器块。这些扩展的架构强调需要重新审视在微调期间如何使用跳跃连接。本文重点关注连接不同解码器块输出的长跳跃连接,从而可能增强模型适应新任务的能力,同时利用预训练知识。

🔬 方法详解

问题定义:现有参数高效微调方法,如LoRA,主要集中在调整Transformer模型中每个解码器块内部的权重矩阵,特别是注意力机制相关的矩阵。这种方法忽略了对解码器块输出的表示进行直接调整,可能限制了模型适应新任务的能力。此外,随着模型层数的增加,如何有效利用跳跃连接也成为一个挑战。

核心思路:Solo Connection的核心思路是在解码器块级别直接调整表示,而不是修改单个权重矩阵。通过引入可训练的线性变换,将原始的块输出表示逐步调整为适应特定任务的表示。这种方法可以更灵活地控制表示的学习过程,并可能更好地利用预训练知识。

技术框架:Solo Connection在Transformer模型的每个解码器块的输出端添加一个可训练的线性变换层。该变换层的输入是解码器块的输出,输出是经过调整后的表示。该线性变换的权重是可训练的,并且通过优化目标函数来学习。此外,论文还探索了长跳跃连接,将不同解码器块的输出连接起来,以增强模型对长距离依赖关系的建模能力。

关键创新:Solo Connection的关键创新在于它在解码器块级别直接调整表示,而不是修改单个权重矩阵。这种方法可以更灵活地控制表示的学习过程,并可能更好地利用预训练知识。此外,论文还探索了长跳跃连接,将不同解码器块的输出连接起来,以增强模型对长距离依赖关系的建模能力。

关键设计:Solo Connection的关键设计包括:1) 可训练的线性变换层,用于调整解码器块的输出表示;2) 同伦理论的启发,通过线性插值实现平滑和稳定的适应;3) 长跳跃连接,连接不同解码器块的输出。线性变换层的权重初始化为一个较小的值,以保证训练的稳定性。损失函数采用标准的交叉熵损失函数。长跳跃连接的具体连接方式和权重需要根据具体任务进行调整。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

Solo Connection在端到端自然语言生成基准测试中优于LoRA,同时显著减少了可训练参数的数量。具体而言,相对于LoRA,Solo Connection减少了59%的可训练参数,并且与GPT2的完全微调相比,减少了99%以上。这些结果表明,Solo Connection是一种高效且有效的微调技术。

🎯 应用场景

Solo Connection作为一种参数高效的微调技术,可以广泛应用于各种自然语言生成任务,例如文本摘要、机器翻译、对话生成等。它特别适用于资源受限的场景,例如移动设备或边缘计算环境。该方法能够以较小的计算代价将大型语言模型适配到特定任务,具有重要的实际应用价值。

📄 摘要(原文)

Parameter efficient fine tuning (PEFT) is a versatile and extensible approach for adapting a Large Language Model (LLM) for newer tasks. One of the most prominent PEFT approaches, Low Rank Adaptation (LoRA), primarily focuses on adjusting the attention weight matrices within individual decoder blocks of a Generative Pre trained Transformer (GPT2). In contrast, we introduce Solo Connection a novel method that adapts the representation at the decoder-block level rather than modifying individual weight matrices. Not only does Solo Connection outperform LoRA on E2E natural language generation benchmarks, but it also reduces the number of trainable parameters by 59% relative to LoRA and by more than 99% compared to full fine-tuning of GPT2, an early version of Large Language Models (LLMs). Solo Connection is also motivated by homotopy theory: we introduce a trainable linear transformation that gradually interpolates between a zero vector and the task-specific representation, enabling smooth and stable adaptation over time. While skip connections in the original 12 layer GPT2 are typically confined to individual decoder blocks, subsequent GPT2 variants scale up to 48 layers, and even larger language models can include 128 or more decoder blocks. These expanded architectures underscore the need to revisit how skip connections are employed during fine-tuning. This paper focuses on long skip connections that link outputs of different decoder blocks, potentially enhancing the model's ability to adapt to new tasks while leveraging pre-trained knowledge.