PromptEmbedder:: Efficient and Transferable Text Embedding via Dual-LLM Soft Prompting
作者: Yu-Che Tsai, Kuan-Yu Chen, Yuan-Hao Chen, Yu-Han Chang, Ching-Yu Tsai, Yu-Hsiang Chuang, Shou-De Lin
分类: cs.CL, cs.AI
发布日期: 2026-05-27
💡 一句话要点
PromptEmbedder:通过双LLM软提示实现高效且可迁移的文本嵌入
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 文本嵌入 大型语言模型 软提示 对比学习 跨架构迁移
📋 核心要点
- 现有文本嵌入方法,如LoRA,在计算效率和跨架构迁移性上存在瓶颈,需要针对新骨干网络进行昂贵的重新训练。
- PromptEmbedder通过双LLM框架解耦嵌入知识和骨干权重,利用Prompting LLM生成软提示,指导冻结的Embedding LLM。
- 实验表明,PromptEmbedder在保持性能的同时,显著降低了GPU内存占用(40%)并加速了训练过程(3.7倍)。
📝 摘要(中文)
大型语言模型(LLMs)在文本嵌入方面表现出卓越的效力,但现有的适应方法(如LoRA)在计算效率和跨架构可迁移性方面面临重大瓶颈。每当出现新的骨干网络时,现有方法都需要从头开始进行昂贵的重新训练。为了解决这个问题,我们提出了PromptEmbedder,这是一种新颖的双LLM框架,它将嵌入知识与特定的骨干权重解耦。PromptEmbedder利用一个Prompting LLM,通过具有连续松弛的可微生成过程,为冻结的Embedding LLM生成指令感知的软提示,从而确保对比训练期间的完全梯度流动。通过将特定于任务的知识定位在Prompting LLM中,适应新的架构只需要重新训练一个轻量级的线性对齐矩阵。在MTEB基准上的评估表明,PromptEmbedder实现了与LoRA微调相当的性能,同时减少了40%的GPU内存并加速了3.7倍的训练。我们的方法为基于LLM的高效表示学习建立了一个可扩展的、架构无关的范例。
🔬 方法详解
问题定义:论文旨在解决现有基于LLM的文本嵌入方法在计算效率和跨架构迁移性方面的不足。现有方法,特别是LoRA等微调方法,需要针对每个新的骨干网络进行重新训练,这带来了巨大的计算开销和时间成本。此外,这些方法将任务特定知识与骨干网络的权重紧密耦合,导致迁移性较差。
核心思路:PromptEmbedder的核心思路是将嵌入知识与特定的骨干网络解耦。通过引入一个Prompting LLM来生成软提示,引导一个冻结的Embedding LLM进行文本嵌入。这样,任务特定的知识被集中在Prompting LLM中,而Embedding LLM则专注于学习通用的文本表示。当需要适应新的骨干网络时,只需要重新训练Prompting LLM和一个轻量级的线性对齐矩阵,大大降低了计算成本。
技术框架:PromptEmbedder包含两个主要的LLM:Prompting LLM和Embedding LLM。Prompting LLM负责接收输入文本并生成软提示,这些软提示被输入到冻结的Embedding LLM中。Embedding LLM则根据软提示生成文本嵌入。整个框架通过一个可微的生成过程进行训练,确保梯度可以从Embedding LLM反向传播到Prompting LLM。训练过程采用对比学习,旨在使相似文本的嵌入更接近,不相似文本的嵌入更远离。
关键创新:PromptEmbedder的关键创新在于其双LLM架构和软提示生成机制。通过将嵌入知识与骨干网络解耦,实现了高效的跨架构迁移。软提示生成机制允许Prompting LLM以一种可微的方式指导Embedding LLM,从而实现端到端的训练。与传统的微调方法相比,PromptEmbedder避免了对整个骨干网络进行重新训练,大大降低了计算成本。
关键设计:PromptEmbedder的关键设计包括:1) 使用连续松弛技术来生成软提示,确保梯度可以流畅地反向传播;2) 采用对比学习损失函数来优化文本嵌入的质量;3) 使用一个轻量级的线性对齐矩阵来将Prompting LLM的输出映射到Embedding LLM的输入空间。Prompting LLM和Embedding LLM可以选择不同的架构和大小,以适应不同的计算资源和性能需求。
🖼️ 关键图片
📊 实验亮点
实验结果表明,PromptEmbedder在MTEB基准测试中取得了与LoRA微调相当的性能,同时将GPU内存占用降低了40%,并将训练速度提高了3.7倍。这些结果证明了PromptEmbedder在效率和可迁移性方面的优势,使其成为一种有竞争力的文本嵌入方法。
🎯 应用场景
PromptEmbedder适用于各种需要高效文本嵌入的场景,例如信息检索、文本分类、情感分析和语义相似度计算。该方法尤其适用于资源受限的环境,例如移动设备或边缘计算平台。通过降低计算成本和提高迁移性,PromptEmbedder可以加速LLM在实际应用中的部署,并促进更广泛的自然语言处理任务。
📄 摘要(原文)
Large Language Models (LLMs) have demonstrated remarkable efficacy in text embedding, yet current adaptation methods like LoRA face significant bottlenecks in computational efficiency and cross-architecture transferability. Whenever a new backbone emerges, existing approaches require costly retraining from scratch. To address this, we propose PromptEmbedder, a novel dual-LLM framework that decouples embedding knowledge from specific backbone weights. PromptEmbedder utilizes a Prompting LLM to generate instruction-aware soft prompts for a frozen Embedding LLM via a differentiable generation process with continuous relaxation, ensuring full gradient flow during contrastive training. By localizing task-specific knowledge within the Prompting LLM, adapting to new architectures requires only retraining a lightweight linear alignment matrix. Evaluations on the MTEB benchmark show that PromptEmbedder achieves comparable performance with LoRA finetuning while reducing GPU memory by 40% and accelerating training by 3.7x. Our approach establishes a scalable, architecture-agnostic paradigm for efficient LLM-based representation learning.