Deploying Semantic ID-based Generative Retrieval for Large-Scale Podcast Discovery at Spotify

📄 arXiv: 2603.17540v1 📥 PDF

作者: Edoardo D'Amico, Marco De Nadai, Praveen Chandar, Divita Vohra, Shawn Lin, Max Lefarov, Paul Gigioli, Gustavo Penha, Ilya Kopysitsky, Ivo Joel Senese, Darren Mei, Francesco Fabbri, Oguz Semerci, Yu Zhao, Vincent Tang, Brian St. Thomas, Alexandra Ranieri, Matthew N. K. Smith, Aaron Bernkopf, Bryan Leung, Ghazal Fazelnia, Mark VanMiddlesworth, Timothy Christopher Heath, Petter Pehrson Skiden, Alice Y. Wang, Doug J. Cole, Andreas Damianou, Maya Hristakeva, Reid Wilbur, Tarun Chillara, Vladan Radosavljevic, Pooja Chitkara, Sainath Adapa, Juan Elenter, Bernd Huber, Jacqueline Wood, Saaketh Vedantam, Jan Stypka, Sandeep Ghael, Martin D. Gould, David Murgatroyd, Yves Raimond, Mounia Lalmas, Paul N. Bennett

分类: cs.IR, cs.LG

发布日期: 2026-03-18


💡 一句话要点

Spotify提出GLIDE,利用语义ID生成式检索实现大规模播客发现,显著提升用户探索体验。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 生成式推荐 播客推荐 大型语言模型 语义ID 个性化推荐 用户探索 Spotify

📋 核心要点

  1. 传统推荐系统难以兼顾用户稳定偏好和动态意图,尤其在播客等探索性内容发现场景。
  2. GLIDE模型利用语义ID将推荐转化为指令跟随任务,结合用户历史和长期偏好进行生成式推荐。
  3. 实验表明,GLIDE显著提升了非习惯性播客播放量和新节目发现,同时满足了生产环境的性能要求。

📝 摘要(中文)

播客收听通常基于一系列喜爱的节目,但听众的意图会随时间演变。这种稳定偏好和变化意图的结合促使推荐方法既支持熟悉感又支持探索。传统的推荐系统通常强调长期互动模式,较少明确设计为包含丰富的上下文信号或灵活的、意图感知的发现目标。在这种情况下,能够联合推理语义、上下文和用户状态的模型提供了一个有希望的方向。大型语言模型(LLM)为面向发现的推荐提供了强大的语义推理和上下文条件,但将其部署在生产环境中带来了目录基础、用户级个性化和延迟敏感服务方面的挑战。我们通过GLIDE解决了这些挑战,GLIDE是Spotify上用于播客发现的生产规模生成式推荐器。GLIDE将推荐定义为使用语义ID在离散目录上的指令跟随任务,从而能够在大型库存上进行有根据的生成。该模型以最近的收听历史和轻量级的用户上下文为条件,同时注入长期用户嵌入作为软提示,以在严格的推理约束下捕获稳定的偏好。我们使用离线检索指标、人工判断和基于LLM的评估来评估GLIDE,并通过大规模在线A/B测试验证其影响。在涉及数百万用户的实验中,GLIDE在Spotify主页上将非习惯性播客流媒体播放量提高了高达5.4%,并将新节目发现量提高了14.3%,同时满足了生产成本和延迟约束。

🔬 方法详解

问题定义:现有播客推荐系统难以有效平衡用户的长期稳定偏好和短期动态意图,导致用户难以发现新的感兴趣的播客内容。传统推荐方法侧重于长期交互模式,缺乏对丰富上下文信号和灵活意图的建模能力。

核心思路:将播客推荐问题转化为一个生成式任务,利用大型语言模型(LLM)的强大语义理解和生成能力,根据用户的历史行为和上下文信息,生成个性化的播客推荐列表。通过语义ID对播客目录进行离散化,实现可控的生成过程。

技术框架:GLIDE模型采用生成式推荐框架,主要包含以下模块:1) 语义ID编码器:将播客目录中的每个播客映射到一个唯一的语义ID。2) 用户上下文编码器:对用户的近期收听历史和轻量级用户上下文进行编码。3) 长期用户偏好嵌入:利用长期用户行为数据学习用户的稳定偏好嵌入,并将其作为软提示注入到生成过程中。4) 生成器:基于LLM,以语义ID、用户上下文和长期偏好嵌入为输入,生成推荐的播客语义ID序列。

关键创新:1) 采用生成式推荐范式,利用LLM的强大能力进行语义理解和个性化推荐。2) 使用语义ID对播客目录进行离散化,实现可控的生成过程,并解决了LLM在开放域生成中可能出现的幻觉问题。3) 将长期用户偏好嵌入作为软提示注入到生成过程中,有效平衡了用户的稳定偏好和动态意图。

关键设计:1) 语义ID的生成方式:使用预训练的语言模型对播客的标题、描述等文本信息进行编码,然后使用聚类算法将播客划分为不同的簇,每个簇对应一个语义ID。2) 长期用户偏好嵌入的学习方式:使用深度学习模型,以用户的长期行为数据为输入,学习用户的个性化嵌入表示。3) 生成器的训练方式:使用序列到序列的训练方法,以用户的历史收听序列为输入,以推荐的播客语义ID序列为输出,优化生成器的参数。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

在线A/B测试结果表明,GLIDE模型在Spotify主页上将非习惯性播客流媒体播放量提高了高达5.4%,并将新节目发现量提高了14.3%,同时满足了生产环境的成本和延迟约束。这些结果验证了GLIDE模型的有效性和实用性。

🎯 应用场景

该研究成果可应用于各种内容推荐场景,例如音乐、视频、新闻等,帮助用户发现更符合其兴趣的内容,提升用户体验和平台活跃度。通过结合语义理解和生成式模型,可以更好地理解用户意图,实现更个性化和智能化的推荐。

📄 摘要(原文)

Podcast listening is often grounded in a set of favorite shows, while listener intent can evolve over time. This combination of stable preferences and changing intent motivates recommendation approaches that support both familiarity and exploration. Traditional recommender systems typically emphasize long-term interaction patterns, and are less explicitly designed to incorporate rich contextual signals or flexible, intent-aware discovery objectives. In this setting, models that can jointly reason over semantics, context, and user state offer a promising direction. Large Language Models (LLMs) provide strong semantic reasoning and contextual conditioning for discovery-oriented recommendation, but deploying them in production introduces challenges in catalog grounding, user-level personalization, and latency-critical serving. We address these challenges with GLIDE, a production-scale generative recommender for podcast discovery at Spotify. GLIDE formulates recommendation as an instruction-following task over a discretized catalog using Semantic IDs, enabling grounded generation over a large inventory. The model conditions on recent listening history and lightweight user context, while injecting long-term user embeddings as soft prompts to capture stable preferences under strict inference constraints. We evaluate GLIDE using offline retrieval metrics, human judgments, and LLM-based evaluation, and validate its impact through large-scale online A/B testing. Across experiments involving millions of users, GLIDE increases non-habitual podcast streaming on Spotify home surface by up to 5.4% and new-show discovery by up to 14.3%, while meeting production cost and latency constraints.