Towards Efficient Post-Training via Fourier-Driven Adapter Architectures

📄 arXiv: 2512.22378v1 📥 PDF

作者: Donggyun Bae, Jongil Park

分类: cs.CL, cs.AI

发布日期: 2025-12-26

备注: 10 pages, 5 figures


💡 一句话要点

提出基于傅里叶变换的Adapter架构FAA,用于高效微调大型预训练语言模型。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 参数高效微调 傅里叶变换 Adapter架构 预训练语言模型 频率感知 自然语言处理

📋 核心要点

  1. 现有参数高效微调方法在捕捉不同频率语义信息方面存在不足,限制了模型性能。
  2. FAA通过傅里叶变换将中间表示分解为频率分量,并自适应地调整不同频率的信息。
  3. 实验表明,FAA在多个NLP任务上优于现有方法,同时保持较低的计算和内存开销。

📝 摘要(中文)

本文提出了一种名为傅里叶激活Adapter(FAA)的新框架,用于对大型预训练语言模型进行参数高效的微调。通过将随机傅里叶特征融入轻量级的Adapter模块中,FAA将中间表示分解为互补的低频和高频分量,从而实现对语义信息的频率感知调制。这种设计使得模型能够在适应过程中有选择地强调信息丰富的频带,同时保留冻结骨干网络的表征能力。在GLUE、E2E NLG和指令调优基准上的大量实验表明,与现有的参数高效微调方法相比,FAA始终能够实现具有竞争力或更优越的性能,同时保持较低的计算和内存开销。消融研究进一步验证了频率感知激活和自适应加权机制的有效性,突显了FAA作为一种用于后训练大型语言模型的稳健而有效的方法。

🔬 方法详解

问题定义:论文旨在解决大型预训练语言模型微调过程中参数效率低下的问题。现有参数高效微调方法,如Adapter,虽然减少了可训练参数的数量,但通常缺乏对不同频率语义信息的有效建模,导致模型性能受限。

核心思路:论文的核心思路是利用傅里叶变换将中间表示分解为不同的频率分量,并设计一种频率感知的Adapter模块,使模型能够自适应地调整不同频率的信息。通过强调信息丰富的频带,同时保留骨干网络的表征能力,从而提高微调效率和性能。

技术框架:FAA框架主要包含以下几个模块:首先,将输入通过预训练语言模型的冻结层得到中间表示;然后,将中间表示输入到FAA模块中,FAA模块利用随机傅里叶特征将中间表示分解为低频和高频分量;接着,对不同频率的分量进行自适应加权和调制;最后,将调制后的表示与原始中间表示融合,输入到后续层进行处理。

关键创新:FAA的关键创新在于引入了频率感知的Adapter模块,该模块能够利用傅里叶变换将中间表示分解为不同的频率分量,并自适应地调整不同频率的信息。这种频率感知的调制方式能够使模型更加关注信息丰富的频带,从而提高微调效率和性能。与现有Adapter方法相比,FAA能够更好地捕捉不同频率的语义信息,从而提高模型性能。

关键设计:FAA的关键设计包括:1) 使用随机傅里叶特征进行频率分解,降低计算复杂度;2) 设计自适应加权机制,根据不同频率分量的重要性进行加权;3) 使用残差连接,保证模型的稳定性和收敛性。具体的参数设置包括Adapter的维度、傅里叶特征的数量等,这些参数需要根据具体的任务进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,FAA在GLUE、E2E NLG和指令调优基准上均取得了具有竞争力的性能。例如,在GLUE基准上,FAA在保持较低参数量的情况下,性能与一些全参数微调方法相当甚至更优。消融实验验证了频率感知激活和自适应加权机制的有效性,证明了FAA的鲁棒性和高效性。

🎯 应用场景

FAA框架可应用于各种自然语言处理任务,例如文本分类、情感分析、机器翻译等。它特别适用于资源受限的场景,例如移动设备或边缘计算环境,因为它可以显著减少微调所需的参数量和计算资源。此外,FAA还可以用于快速适应新的任务或领域,提高模型的泛化能力。

📄 摘要(原文)

We propose a novel framework, termed Fourier-Activated Adapter (FAA), for parameter-efficient fine-tuning of large pre-trained language models. By incorporating random Fourier features into lightweight adapter modules, FAA decomposes intermediate representations into complementary low- and high-frequency components, enabling frequency-aware modulation of semantic information. This design allows the model to selectively emphasize informative frequency bands during adaptation while preserving the representational capacity of the frozen backbone. Extensive experiments on GLUE, E2E NLG, and instruction-tuning benchmarks demonstrate that FAA consistently achieves competitive or superior performance compared to existing parameter-efficient fine-tuning methods, while maintaining low computational and memory overhead. Ablation studies further verify the effectiveness of frequency-aware activation and adaptive weighting mechanisms, highlighting FAA as a robust and efficient approach for post-training large language models.