SMoA: Spectrum Modulation Adapter for Parameter-Efficient Fine-Tuning
作者: Yongkang Liu, Xing Li, Mengjie Zhao, Shanru Zhang, Zijing Wang, Qian Li, Shi Feng, Feiliang Ren, Daling Wang, Hinrich Schütze
分类: cs.LG, cs.CL
发布日期: 2026-05-20
💡 一句话要点
提出SMoA,通过谱调制适配器在参数高效微调中提升性能。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 参数高效微调 低秩适应 谱调制 Hadamard变换 大型语言模型
📋 核心要点
- LoRA等参数高效微调方法受限于秩的大小,降低秩会限制模型表示能力。
- SMoA通过谱调制适配器,在更小的参数预算下,扩大了谱感知更新的范围。
- 实验表明,SMoA在低预算情况下,相比LoRA和其他LoRA变体,平均性能有所提升。
📝 摘要(中文)
随着模型参数数量的增加,参数高效微调(PEFT)已成为定制预训练大型语言模型的首选方法。低秩适应(LoRA)使用低秩更新方法来模拟全参数微调,被广泛用于降低资源需求。然而,降低秩会遇到表示能力有限的挑战。理论表明,秩为r的LoRA微调收敛于预训练权重矩阵的前r个奇异值。随着秩的增加,更多的主奇异方向被保留,这通常会提高模型的性能。然而,更大的秩也引入了更多的可训练参数,导致更高的计算成本。为了克服这一困境,我们提出了SMoA,一种谱调制适配器,它在较小的参数预算下扩大了可访问的谱感知更新族。SMoA将层划分为多个对齐的谱块,并将一个块内Hadamard调制的低秩分支应用于每个对角块,从而更广泛地覆盖预训练的谱方向。我们提供了理论分析和多个任务的实验结果。在我们的实验中,SMoA在当前的较低预算设置下,提高了相对于LoRA和有竞争力的LoRA风格基线的平均性能。
🔬 方法详解
问题定义:论文旨在解决参数高效微调(PEFT)中,如何在有限的参数预算下,提升模型性能的问题。现有方法如LoRA,通过低秩分解来减少可训练参数,但降低秩会限制模型的表示能力,导致性能瓶颈。增加秩虽然可以提升性能,但会显著增加计算成本。
核心思路:论文的核心思路是通过谱调制适配器(SMoA),在较小的参数预算下,扩大模型可以访问的谱感知更新范围。具体来说,SMoA将权重矩阵划分为多个谱块,并对每个块应用Hadamard调制的低秩分支,从而更全面地覆盖预训练模型的谱信息。
技术框架:SMoA的主要流程如下:首先,将预训练模型的权重矩阵划分为多个对齐的谱块。然后,对每个对角块应用一个Hadamard调制的低秩分支。每个低秩分支独立学习该谱块的更新。最后,将所有谱块的更新组合起来,得到最终的更新矩阵。
关键创新:SMoA的关键创新在于其谱调制和分块处理。通过将权重矩阵划分为多个谱块,并对每个块进行独立的低秩更新,SMoA能够更精细地控制模型的更新方向,从而在有限的参数预算下,实现更好的性能。Hadamard调制进一步增强了模型对谱信息的利用。
关键设计:SMoA的关键设计包括:谱块的大小、低秩分支的秩、Hadamard调制的方式。谱块的大小决定了模型能够关注的谱信息的粒度。低秩分支的秩决定了每个谱块的更新能力。Hadamard调制的方式影响了模型对谱信息的利用效率。论文中可能讨论了这些参数的选择策略,但具体细节未知。
🖼️ 关键图片
📊 实验亮点
实验结果表明,SMoA在低预算设置下,相较于LoRA和其他LoRA风格的基线方法,平均性能有所提升。具体的性能提升幅度以及所使用的评测数据集未知,但结论表明SMoA在参数效率和性能之间取得了更好的平衡。
🎯 应用场景
SMoA可应用于各种需要参数高效微调的场景,例如在资源受限的设备上部署大型语言模型、快速适应新任务、以及在保护隐私的前提下进行模型定制。该方法能够降低计算成本和存储需求,加速模型开发和部署。
📄 摘要(原文)
As the number of model parameters increases, parameter-efficient fine-tuning (PEFT) has become the go-to choice for tailoring pre-trained large language models. Low-rank Adaptation (LoRA) uses a low-rank update method to simulate full parameter fine-tuning, which is widely used to reduce resource requirements. However, decreasing the rank encounters challenges with limited representational capacity. Theory suggests that LoRA fine-tuning with rank r converges toward the top r singular values of the pre-trained weight matrix. As the rank increases, more principal singular directions are preserved, which generally improves the model's performance. However, a larger rank also introduces more trainable parameters, leading to higher computational cost. To overcome this dilemma, we propose SMoA, a \textbf{S}pectrum \textbf{Mo}dulation \textbf{A}dapter that enlarges the accessible family of spectrum-aware updates under a smaller parameter budget. SMoA partitions the layer into multiple aligned spectral blocks and applies one in-block Hadamard-modulated low-rank branch to each diagonal block, yielding broader coverage of pretrained spectral directions. We provide theoretical analysis and empirical results on multiple tasks. In our experiments, SMoA improves average performance in the current lower-budget setting over LoRA and competitive LoRA-style baselines.