PromptEmbedder:: Efficient and Transferable Text Embedding via Dual-LLM Soft Prompting

作者: Yu-Che Tsai, Kuan-Yu Chen, Yuan-Hao Chen, Yu-Han Chang, Ching-Yu Tsai, Yu-Hsiang Chuang, Shou-De Lin

分类: cs.CL, cs.AI

发布日期: 2026-05-27

💡 一句话要点

PromptEmbedder：通过双LLM软提示实现高效且可迁移的文本嵌入

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 文本嵌入 大型语言模型 软提示 对比学习 跨架构迁移

📋 核心要点

现有文本嵌入方法，如LoRA，在计算效率和跨架构迁移性上存在瓶颈，需要针对新骨干网络进行昂贵的重新训练。
PromptEmbedder通过双LLM框架解耦嵌入知识和骨干权重，利用Prompting LLM生成软提示，指导冻结的Embedding LLM。
实验表明，PromptEmbedder在保持性能的同时，显著降低了GPU内存占用（40%）并加速了训练过程（3.7倍）。

📝 摘要（中文）

大型语言模型（LLMs）在文本嵌入方面表现出卓越的效力，但现有的适应方法（如LoRA）在计算效率和跨架构可迁移性方面面临重大瓶颈。每当出现新的骨干网络时，现有方法都需要从头开始进行昂贵的重新训练。为了解决这个问题，我们提出了PromptEmbedder，这是一种新颖的双LLM框架，它将嵌入知识与特定的骨干权重解耦。PromptEmbedder利用一个Prompting LLM，通过具有连续松弛的可微生成过程，为冻结的Embedding LLM生成指令感知的软提示，从而确保对比训练期间的完全梯度流动。通过将特定于任务的知识定位在Prompting LLM中，适应新的架构只需要重新训练一个轻量级的线性对齐矩阵。在MTEB基准上的评估表明，PromptEmbedder实现了与LoRA微调相当的性能，同时减少了40%的GPU内存并加速了3.7倍的训练。我们的方法为基于LLM的高效表示学习建立了一个可扩展的、架构无关的范例。

🔬 方法详解

问题定义：论文旨在解决现有基于LLM的文本嵌入方法在计算效率和跨架构迁移性方面的不足。现有方法，特别是LoRA等微调方法，需要针对每个新的骨干网络进行重新训练，这带来了巨大的计算开销和时间成本。此外，这些方法将任务特定知识与骨干网络的权重紧密耦合，导致迁移性较差。

核心思路：PromptEmbedder的核心思路是将嵌入知识与特定的骨干网络解耦。通过引入一个Prompting LLM来生成软提示，引导一个冻结的Embedding LLM进行文本嵌入。这样，任务特定的知识被集中在Prompting LLM中，而Embedding LLM则专注于学习通用的文本表示。当需要适应新的骨干网络时，只需要重新训练Prompting LLM和一个轻量级的线性对齐矩阵，大大降低了计算成本。

技术框架：PromptEmbedder包含两个主要的LLM：Prompting LLM和Embedding LLM。Prompting LLM负责接收输入文本并生成软提示，这些软提示被输入到冻结的Embedding LLM中。Embedding LLM则根据软提示生成文本嵌入。整个框架通过一个可微的生成过程进行训练，确保梯度可以从Embedding LLM反向传播到Prompting LLM。训练过程采用对比学习，旨在使相似文本的嵌入更接近，不相似文本的嵌入更远离。

关键创新：PromptEmbedder的关键创新在于其双LLM架构和软提示生成机制。通过将嵌入知识与骨干网络解耦，实现了高效的跨架构迁移。软提示生成机制允许Prompting LLM以一种可微的方式指导Embedding LLM，从而实现端到端的训练。与传统的微调方法相比，PromptEmbedder避免了对整个骨干网络进行重新训练，大大降低了计算成本。

关键设计：PromptEmbedder的关键设计包括：1) 使用连续松弛技术来生成软提示，确保梯度可以流畅地反向传播；2) 采用对比学习损失函数来优化文本嵌入的质量；3) 使用一个轻量级的线性对齐矩阵来将Prompting LLM的输出映射到Embedding LLM的输入空间。Prompting LLM和Embedding LLM可以选择不同的架构和大小，以适应不同的计算资源和性能需求。

🖼️ 关键图片

📊 实验亮点

实验结果表明，PromptEmbedder在MTEB基准测试中取得了与LoRA微调相当的性能，同时将GPU内存占用降低了40%，并将训练速度提高了3.7倍。这些结果证明了PromptEmbedder在效率和可迁移性方面的优势，使其成为一种有竞争力的文本嵌入方法。

🎯 应用场景

PromptEmbedder适用于各种需要高效文本嵌入的场景，例如信息检索、文本分类、情感分析和语义相似度计算。该方法尤其适用于资源受限的环境，例如移动设备或边缘计算平台。通过降低计算成本和提高迁移性，PromptEmbedder可以加速LLM在实际应用中的部署，并促进更广泛的自然语言处理任务。

📄 摘要（原文）

Large Language Models (LLMs) have demonstrated remarkable efficacy in text embedding, yet current adaptation methods like LoRA face significant bottlenecks in computational efficiency and cross-architecture transferability. Whenever a new backbone emerges, existing approaches require costly retraining from scratch. To address this, we propose PromptEmbedder, a novel dual-LLM framework that decouples embedding knowledge from specific backbone weights. PromptEmbedder utilizes a Prompting LLM to generate instruction-aware soft prompts for a frozen Embedding LLM via a differentiable generation process with continuous relaxation, ensuring full gradient flow during contrastive training. By localizing task-specific knowledge within the Prompting LLM, adapting to new architectures requires only retraining a lightweight linear alignment matrix. Evaluations on the MTEB benchmark show that PromptEmbedder achieves comparable performance with LoRA finetuning while reducing GPU memory by 40% and accelerating training by 3.7x. Our approach establishes a scalable, architecture-agnostic paradigm for efficient LLM-based representation learning.

PromptEmbedder:: Efficient and Transferable Text Embedding via Dual-LLM Soft Prompting

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理