LLM2Vec-Gen: Generative Embeddings from Large Language Models
作者: Parishad BehnamGhader, Vaibhav Adlakha, Fabian David Schmidt, Nicolas Chapados, Marius Mosbach, Siva Reddy
分类: cs.CL
发布日期: 2026-03-11
💡 一句话要点
LLM2Vec-Gen:利用大型语言模型生成式嵌入,提升文本表示能力。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 文本嵌入 大型语言模型 自监督学习 生成式模型 知识蒸馏 语义表示 文本检索
📋 核心要点
- 现有文本嵌入模型依赖对比学习和配对数据,难以有效捕捉输入-输出之间的复杂关系,限制了模型性能。
- LLM2Vec-Gen通过学习表示LLM的潜在响应,而非直接编码输入,从而弥合输入-输出差距,提升嵌入质量。
- 实验表明,LLM2Vec-Gen在MTEB上取得了SOTA自监督性能,并在有害内容检索和推理能力方面有显著提升。
📝 摘要(中文)
基于大型语言模型(LLM)的文本嵌入模型通常编码输入的语义内容。然而,嵌入任务需要将不同的输入映射到相似的输出。通常,这种输入-输出的映射是通过使用对比学习和配对数据来训练嵌入模型来实现的。本文提出了一种新颖的自监督方法LLM2Vec-Gen,它采用了一种不同的范式:不是编码输入,而是学习表示模型潜在的响应。具体来说,我们向LLM的词汇表中添加可训练的特殊token,将它们附加到输入中,并优化它们以在固定长度的序列中表示LLM的响应。训练由LLM自身对查询的补全以及提供蒸馏目标的无监督嵌入教师引导。这种公式有助于弥合输入-输出的差距,并将LLM的能力(如安全对齐和推理)转移到嵌入任务中。至关重要的是,LLM骨干保持冻结,并且训练只需要未标记的查询。LLM2Vec-Gen在Massive Text Embedding Benchmark (MTEB)上实现了最先进的自监督性能,比最好的无监督嵌入教师提高了9.3%。我们还观察到有害内容检索减少了高达43.2%,嵌入任务的推理能力提高了29.3%。最后,学习到的嵌入是可解释的,可以解码为文本以揭示其语义内容。
🔬 方法详解
问题定义:现有的文本嵌入方法,特别是基于对比学习的方法,需要大量的配对数据进行训练,并且难以捕捉输入和输出之间的复杂关系。此外,如何将大型语言模型(LLM)的强大能力,如安全对齐和推理,迁移到嵌入任务中是一个挑战。
核心思路:LLM2Vec-Gen的核心思路是学习表示LLM对给定输入的潜在响应,而不是直接编码输入本身。通过引入可训练的特殊token,并优化这些token来代表LLM的响应,从而将嵌入任务转化为一个生成任务。这种方法能够更好地利用LLM的知识和能力,并弥合输入-输出之间的差距。
技术框架:LLM2Vec-Gen的整体框架包括以下几个主要步骤:1) 向LLM的词汇表中添加可训练的特殊token。2) 将这些特殊token附加到输入查询中。3) 使用LLM生成对查询的补全。4) 使用LLM的补全作为目标,训练特殊token,使其能够代表LLM的响应。5) 使用一个无监督的嵌入教师提供蒸馏目标,进一步提升嵌入质量。LLM骨干网络在训练过程中保持冻结。
关键创新:LLM2Vec-Gen的关键创新在于其生成式的嵌入方法。与传统的编码式嵌入方法不同,LLM2Vec-Gen学习生成LLM的响应,从而更好地利用LLM的知识和能力。此外,该方法采用自监督的方式进行训练,只需要未标记的查询,降低了训练成本。
关键设计:LLM2Vec-Gen的关键设计包括:1) 使用可训练的特殊token来表示LLM的响应。2) 使用LLM自身的补全作为训练目标。3) 使用无监督的嵌入教师提供蒸馏目标。4) LLM骨干网络保持冻结,只训练特殊token。损失函数包括LLM补全损失和蒸馏损失。具体参数设置和网络结构细节未在摘要中详细说明,属于未知信息。
🖼️ 关键图片
📊 实验亮点
LLM2Vec-Gen在MTEB上实现了最先进的自监督性能,比最佳无监督嵌入教师提高了9.3%。此外,该方法在有害内容检索方面降低了高达43.2%,在嵌入任务的推理能力方面提高了29.3%。这些结果表明LLM2Vec-Gen在文本嵌入任务中具有显著的优势。
🎯 应用场景
LLM2Vec-Gen可应用于各种文本嵌入任务,如文本检索、文本分类、语义相似度计算等。其在安全内容过滤方面的潜力使其在社交媒体监控、在线内容审核等领域具有重要价值。此外,该方法能够提升嵌入的推理能力,使其在知识图谱推理、问答系统等领域具有应用前景。
📄 摘要(原文)
LLM-based text embedders typically encode the semantic content of their input. However, embedding tasks require mapping diverse inputs to similar outputs. Typically, this input-output is addressed by training embedding models with paired data using contrastive learning. In this work, we propose a novel self-supervised approach, LLM2Vec-Gen, which adopts a different paradigm: rather than encoding the input, we learn to represent the model's potential response. Specifically, we add trainable special tokens to the LLM's vocabulary, append them to input, and optimize them to represent the LLM's response in a fixed-length sequence. Training is guided by the LLM's own completion for the query, along with an unsupervised embedding teacher that provides distillation targets. This formulation helps to bridge the input-output gap and transfers LLM capabilities such as safety alignment and reasoning to embedding tasks. Crucially, the LLM backbone remains frozen and training requires only unlabeled queries. LLM2Vec-Gen achieves state-of-the-art self-supervised performance on the Massive Text Embedding Benchmark (MTEB), improving by 9.3% over the best unsupervised embedding teacher. We also observe up to 43.2% reduction in harmful content retrieval and 29.3% improvement in reasoning capabilities for embedding tasks. Finally, the learned embeddings are interpretable and can be decoded into text to reveal their semantic content.