Decoupled Entity Representation Learning for Pinterest Ads Ranking
作者: Jie Liu, Yinrui Li, Jiankai Sun, Kungang Li, Han Sun, Sihan Wang, Huasen Wu, Siyuan Gao, Paulo Soares, Nan Li, Zhifang Liu, Haoyang Li, Siping Ji, Ling Leng, Prathibha Deshikachar
分类: cs.IR, cs.AI, cs.LG
发布日期: 2025-09-04
💡 一句话要点
提出解耦实体表示学习框架,提升Pinterest广告排序效果
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 实体表示学习 解耦框架 广告排序 推荐系统 CTR预测 CVR预测 Pinterest 用户画像
📋 核心要点
- 现有方法难以从海量异构数据中有效学习用户和商品之间的复杂关系,导致广告排序效果不佳。
- 论文提出解耦实体表示学习框架,通过上游模型学习高质量的用户和商品嵌入,并定期刷新以保证可扩展性。
- 实验表明,该框架在离线和在线环境中均取得了显著的性能提升,并已成功部署到Pinterest的生产广告排序系统中。
📝 摘要(中文)
本文介绍了一种新颖的上下游范式框架,用于构建用户和商品(Pin)的嵌入表示,这对于Pinterest有效提供个性化的Pins和广告至关重要。我们的上游模型在包含各种信号的大量数据源上进行训练,利用复杂的架构来捕获Pinterest上用户和Pins之间复杂的关联关系。为了确保上游模型的可扩展性,我们学习实体嵌入并定期刷新,而不是实时计算,从而允许上游和下游模型之间的异步交互。这些嵌入随后被整合为众多下游任务的输入特征,包括用于CTR和CVR预测的广告检索和排序模型。我们证明了我们的框架在各种下游任务的离线和在线环境中都取得了显著的性能提升。该框架已部署在Pinterest的生产广告排序系统中,从而显著提高了在线指标。
🔬 方法详解
问题定义:Pinterest广告排序旨在为用户推荐个性化的Pins和广告,核心挑战在于如何从海量、异构的数据中学习用户和商品(Pin)的有效表示。现有方法难以捕捉用户和商品之间复杂的关联关系,并且实时计算成本高昂,限制了模型的可扩展性。
核心思路:论文采用上下游解耦的框架,将实体表示学习和下游排序任务分离。上游模型负责学习高质量的用户和商品嵌入,下游模型则利用这些嵌入进行广告检索和排序。通过定期刷新嵌入,实现了异步交互,提高了系统的可扩展性。
技术框架:整体框架包含两个主要阶段:上游实体表示学习和下游广告排序。上游模型利用各种数据源(例如用户行为、Pin的内容信息等)训练复杂的神经网络,学习用户和商品的嵌入表示。这些嵌入被定期刷新并存储。下游广告排序模型将这些嵌入作为输入特征,用于预测CTR和CVR等指标,从而进行广告排序。
关键创新:最重要的创新点在于解耦的上下游框架,它允许上游模型专注于学习高质量的实体表示,而下游模型则可以灵活地利用这些表示进行各种排序任务。这种解耦设计提高了系统的可扩展性和灵活性。
关键设计:上游模型采用了复杂的神经网络架构,以捕捉用户和商品之间复杂的关联关系。具体网络结构和损失函数未知,但强调了利用多种数据源和复杂模型来学习高质量的嵌入表示。嵌入的刷新频率是一个关键参数,需要在性能和计算成本之间进行权衡。下游模型使用了CTR和CVR预测作为排序目标,具体模型结构未知。
🖼️ 关键图片
📊 实验亮点
该框架在Pinterest的生产广告排序系统中取得了显著的在线指标提升,证明了其有效性。虽然论文中没有给出具体的性能数据,但强调了在各种下游任务的离线和在线环境中都取得了显著的性能提升。这表明该框架具有良好的泛化能力和实际应用价值。
🎯 应用场景
该研究成果可应用于各种推荐系统和广告排序场景,尤其适用于需要处理海量数据和复杂用户行为的平台。通过学习高质量的实体表示,可以提升推荐的个性化程度和广告的点击率,从而提高用户体验和平台收益。该方法具有良好的可扩展性,可以方便地应用于新的数据源和排序任务。
📄 摘要(原文)
In this paper, we introduce a novel framework following an upstream-downstream paradigm to construct user and item (Pin) embeddings from diverse data sources, which are essential for Pinterest to deliver personalized Pins and ads effectively. Our upstream models are trained on extensive data sources featuring varied signals, utilizing complex architectures to capture intricate relationships between users and Pins on Pinterest. To ensure scalability of the upstream models, entity embeddings are learned, and regularly refreshed, rather than real-time computation, allowing for asynchronous interaction between the upstream and downstream models. These embeddings are then integrated as input features in numerous downstream tasks, including ad retrieval and ranking models for CTR and CVR predictions. We demonstrate that our framework achieves notable performance improvements in both offline and online settings across various downstream tasks. This framework has been deployed in Pinterest's production ad ranking systems, resulting in significant gains in online metrics.