LinkedIn Post Embeddings: Industrial Scale Embedding Generation and Usage across LinkedIn
作者: Sudarshan Srinivasa Ramanujam, Akanksha Bindal, Yu Jiang, Timothy J. Hazen, David Golland, Fengyu Zhang, Daqi Sun, Wanning Li, Birjodh Singh Tiwana, Siddharth Dangi, Peng Yan
分类: cs.LG, cs.AI
发布日期: 2024-05-18 (更新: 2025-10-17)
💡 一句话要点
LinkedIn提出基于多任务微调Transformer的Post Embedding,提升Feed流和视频推荐排序效果。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: Post Embedding Transformer模型 多任务学习 语义表示 信息检索 内容推荐 LinkedIn 社交媒体
📋 核心要点
- 现有帖子embedding方法难以有效捕捉LinkedIn平台特有的语义信息,导致检索和排序效果不佳。
- 采用多任务学习微调预训练Transformer模型,利用多个语义标注任务的正迁移效应,提升embedding质量。
- 实验表明,该方法在零样本学习和LinkedIn特定任务上优于现有embedding模型,并在实际产品中取得了显著效果。
📝 摘要(中文)
本文介绍了LinkedIn使用的Post Embedding,它是一种将文本表示为embedding向量的技术,能够有效捕捉语义信息,并被LinkedIn的产品界面用于检索和排序(例如,对feed流或视频标签中的帖子进行排序)。该方法以预训练的基于Transformer的大型语言模型(LLM)作为输入,并使用多任务学习在各种语义标注任务上进行微调。实验观察到正迁移现象,与独立训练相比,所有任务的性能均得到提高。生成的Post Embedding在零样本学习中优于基线模型,证明了其更广泛的适用性。此外,在LinkedIn特定的数据集和任务上,其性能超过了OpenAI的ADA-001和ADA-002 embedding。文章还描述了离线评估方法以及到近线基础设施的部署,这使得Post Embedding在帖子创建后几分钟内即可用于任何下游应用。展示了embedding在Feed产品界面中(包括排序和检索阶段)的应用,并展示了实际的在线影响,证明了这些embedding的卓越性能。最后,还分享了将embedding应用于LinkedIn视频排序产品界面的检索系统的结果。这些embedding已经在LinkedIn的生产环境中经过了两年多的实战检验,持续为多个产品提供支持。
🔬 方法详解
问题定义:论文旨在解决LinkedIn平台中帖子表示的问题,即如何生成高质量的post embedding,以便更好地支持feed流和视频推荐等应用中的检索和排序任务。现有的方法,例如通用embedding模型,可能无法很好地捕捉LinkedIn平台特有的语义信息,导致检索和排序效果不佳。
核心思路:论文的核心思路是利用预训练的Transformer模型,并通过多任务学习的方式在多个与LinkedIn帖子相关的语义标注任务上进行微调。通过多任务学习,模型可以学习到更丰富的语义信息,从而生成更具表达能力的post embedding。这种方法能够利用不同任务之间的正迁移效应,提升整体性能。
技术框架:整体框架包括以下几个主要阶段:1) 使用预训练的Transformer模型作为基础;2) 构建多个与LinkedIn帖子相关的语义标注任务,例如帖子分类、主题识别等;3) 使用多任务学习的方式,同时在这些任务上对Transformer模型进行微调;4) 生成post embedding,并将其应用于feed流和视频推荐等应用中。
关键创新:最重要的技术创新点在于使用多任务学习的方式来微调预训练的Transformer模型。与传统的单任务微调相比,多任务学习可以利用不同任务之间的相关性,从而学习到更通用的语义表示。此外,论文还针对LinkedIn平台特点,设计了一系列相关的语义标注任务。
关键设计:关键设计包括:1) 选择合适的预训练Transformer模型;2) 设计合适的语义标注任务,并构建相应的数据集;3) 选择合适的损失函数,例如交叉熵损失函数,用于多任务学习;4) 调整Transformer模型的超参数,例如学习率、batch size等,以获得最佳性能。具体参数设置未知。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法生成的post embedding在零样本学习中优于基线模型,并且在LinkedIn特定的数据集和任务上,其性能超过了OpenAI的ADA-001和ADA-002 embedding。在实际的feed流和视频推荐应用中,该embedding也取得了显著的在线效果提升,具体提升幅度未知。
🎯 应用场景
该研究成果可广泛应用于社交媒体平台的内容推荐、信息检索和广告排序等领域。在LinkedIn中,该post embedding已被应用于feed流和视频推荐,提升了用户体验和平台效率。未来,该技术还可扩展到其他类型的社交内容,例如文章、评论等,并应用于招聘推荐、技能匹配等场景。
📄 摘要(原文)
A post embedding (representation of text in embedding space that effectively captures semantic meaning) is a foundational component of LinkedIn that is consumed by product surfaces in retrieval and ranking (e.g., ranking posts in the feed or video tab). This paper presents the post embeddings used at LinkedIn, where a pre-trained transformer-based large language model (LLM) is taken as input and fine-tuned using multi-task learning across a diverse set of semantic labeling tasks. We observe positive transfer, leading to improved performance across all tasks, compared to training them independently. The generated post embeddings outperform baseline models in zero-shot learning, demonstrating its potential for broader applicability. Furthermore, the generated post embeddings' performance surpasses that of OpenAI's ADA-001 and ADA-002 embeddings on LinkedIn specific datasets and tasks. We also describe the offline evaluation methodology and the deployment to our near-line infrastructure, which makes the post embedding available for use within minutes of post creation for any downstream application. We present how the embeddings were applied in the Feed product surface, in both ranking and retrieval stages, and showcase the real world online impact to demonstrate the superior performance of these embeddings. Finally, we also share the results of applying the embeddings to the retrieval system of our video ranking product surface in LinkedIn. These embeddings have been battle-tested in production at LinkedIn for over two years, consistently powering multiple products.