ULPT: Prompt Tuning with Ultra-Low-Dimensional Optimization
作者: Zijun Wu, Yongchang Hao, Lili Mou
分类: cs.CL
发布日期: 2025-02-06
💡 一句话要点
提出超低维Prompt Tuning(ULPT),高效微调大语言模型。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: Prompt Tuning 参数高效微调 低维优化 随机投影 大型语言模型
📋 核心要点
- 现有Prompt Tuning方法将Prompt嵌入与模型维度绑定,限制了其在大模型和定制化模型上的扩展性。
- ULPT在低维空间优化Prompt,通过随机上投影矩阵和可学习的shift/scale嵌入增强对齐,降低训练参数。
- 实验表明,ULPT在21个NLP任务上,仅用2%的参数就达到了与传统Prompt Tuning相当的性能。
📝 摘要(中文)
大型语言模型(LLM)虽然性能卓越,但由于其规模庞大,微调成本高昂。Prompt Tuning等参数高效微调方法通过减少可训练参数同时保持强大性能来解决这个问题。然而,先前的方法将prompt嵌入与模型的维度绑定,这可能无法很好地扩展到更大的LLM和更定制化的LLM。本文提出了超低维Prompt Tuning(ULPT),它在低维空间(例如,2D)中优化prompt,并使用随机但冻结的矩阵进行上投影。为了增强对齐,我们引入了可学习的shift和scale嵌入。ULPT显著减少了可训练参数,例如,2D仅使用2%的参数,与vanilla prompt tuning相比,同时在21个NLP任务中保留了大部分性能。我们的理论分析表明,随机投影可以有效地捕获高秩结构,实验结果表明ULPT相对于现有的参数高效方法具有竞争优势。
🔬 方法详解
问题定义:现有Prompt Tuning方法的一个主要痛点在于,Prompt嵌入的维度通常与预训练语言模型的隐藏层维度绑定。这意味着,随着模型规模的增大,Prompt Tuning所需的参数量也会线性增长,这限制了其在大规模语言模型上的应用。此外,对于定制化的语言模型,这种绑定关系可能不是最优的,因为Prompt的维度可能不需要与模型的隐藏层维度完全一致。
核心思路:ULPT的核心思路是将Prompt嵌入到一个超低维的空间中进行优化,例如2D空间。然后,通过一个随机但冻结的上投影矩阵,将低维的Prompt嵌入映射到与预训练语言模型隐藏层维度相同的空间中。这样,可以显著减少需要训练的参数量,同时保持Prompt Tuning的有效性。为了进一步增强Prompt与模型之间的对齐,ULPT还引入了可学习的shift和scale嵌入。
技术框架:ULPT的整体框架包括以下几个主要步骤:1) 将Prompt嵌入到一个低维空间中;2) 使用一个随机但冻结的上投影矩阵将低维Prompt嵌入映射到高维空间;3) 使用可学习的shift和scale嵌入对映射后的Prompt进行调整;4) 将调整后的Prompt添加到输入文本中,并将其输入到预训练语言模型中进行微调。
关键创新:ULPT最重要的技术创新点在于使用超低维的Prompt嵌入和随机上投影矩阵。这种方法可以显著减少需要训练的参数量,同时保持Prompt Tuning的有效性。此外,可学习的shift和scale嵌入可以进一步增强Prompt与模型之间的对齐。
关键设计:ULPT的关键设计包括:1) 低维Prompt嵌入的维度选择(例如,2D);2) 随机上投影矩阵的初始化方法;3) shift和scale嵌入的初始化方法;4) 损失函数的选择。论文中提到随机投影可以有效捕获高秩结构,但具体的理论证明和实验验证细节未知。
🖼️ 关键图片
📊 实验亮点
ULPT在21个NLP任务上进行了实验,结果表明,与传统的Prompt Tuning相比,ULPT仅使用2%的参数就达到了相当的性能。此外,ULPT还优于其他参数高效微调方法,例如Prefix-Tuning和Adapter。这些结果表明,ULPT是一种非常有竞争力的参数高效微调方法。
🎯 应用场景
ULPT适用于各种需要对大型语言模型进行参数高效微调的场景,例如文本分类、情感分析、问答等。它尤其适用于资源受限的环境,例如移动设备或边缘计算设备。ULPT的低参数量特性使其更容易部署和维护,并降低了微调的成本。未来,ULPT可以进一步扩展到其他类型的预训练模型,例如视觉Transformer。
📄 摘要(原文)
Large language models achieve state-of-the-art performance but are costly to fine-tune due to their size. Parameter-efficient fine-tuning methods, such as prompt tuning, address this by reducing trainable parameters while maintaining strong performance. However, prior methods tie prompt embeddings to the model's dimensionality, which may not scale well with larger LLMs and more customized LLMs. In this paper, we propose Ultra-Low-dimensional Prompt Tuning (ULPT), which optimizes prompts in a low-dimensional space (e.g., 2D) and use a random but frozen matrix for the up-projection. To enhance alignment, we introduce learnable shift and scale embeddings. ULPT drastically reduces the trainable parameters, e.g., 2D only using 2% parameters compared with vanilla prompt tuning while retaining most of the performance across 21 NLP tasks. Our theoretical analysis shows that random projections can capture high-rank structures effectively, and experimental results demonstrate ULPT's competitive performance over existing parameter-efficient methods.