Deep Reinforcement Learning for Ranking Utility Tuning in the Ad Recommender System at Pinterest

📄 arXiv: 2509.05292v1 📥 PDF

作者: Xiao Yang, Mehdi Ben Ayed, Longyu Zhao, Fan Zhou, Yuchen Shen, Abe Engle, Jinfeng Zhuang, Ling Leng, Jiajing Xu, Charles Rosenberg, Prathibha Deshikachar

分类: cs.LG

发布日期: 2025-09-05


💡 一句话要点

提出DRL-PUT框架,利用深度强化学习优化Pinterest广告推荐系统中排序效用函数。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 深度强化学习 广告推荐系统 效用函数优化 在线学习 个性化推荐

📋 核心要点

  1. 传统广告推荐系统中的排序效用函数手动调整方法存在目标不明确、参数组合庞大、缺乏个性化和适应性等问题。
  2. 论文提出DRL-PUT框架,利用深度强化学习直接从在线日志中学习最优策略,避免了值函数估计的困难。
  3. 在线A/B实验表明,DRL-PUT显著提升了点击率和长期点击率,验证了该方法的有效性和优越性。

📝 摘要(中文)

本文提出了一种通用的深度强化学习框架,用于个性化效用调整(DRL-PUT),以解决广告推荐系统中多目标优化问题。广告推荐系统中的排序效用函数线性组合了各种业务目标的预测,在平衡平台、广告商和用户之间的价值方面起着核心作用。传统的手动调整虽然简单且易于解释,但由于其不合理的调整目标、大量的参数组合以及缺乏个性化和对季节性的适应性,通常会产生次优结果。该框架将问题建模为强化学习任务:给定广告请求的状态,预测最优超参数以最大化预定义的奖励。该方法直接使用在线服务日志学习最优策略模型,避免了估计值函数的需求,因为值函数由于即时奖励的高方差和不平衡分布而具有挑战性。在Pinterest的广告推荐系统中进行的在线A/B实验表明,与基线手动效用调整方法相比,DRL-PUT使点击率提高了9.7%,长期点击率提高了7.7%。对不同奖励定义的影响进行了详细的消融研究,并分析了学习策略模型的个性化方面。

🔬 方法详解

问题定义:论文旨在解决广告推荐系统中排序效用函数的手动调整的局限性。手动调整方法难以应对多目标优化,无法有效平衡平台、广告商和用户之间的价值,且缺乏个性化和对季节性变化的适应能力。现有方法的痛点在于无法充分利用数据,难以找到最优的参数组合。

核心思路:论文的核心思路是将排序效用函数的参数调整问题建模为一个强化学习任务。通过定义合适的状态、动作和奖励函数,利用深度强化学习算法直接学习最优策略,从而自动调整参数以最大化预定义的奖励。这种方法能够充分利用在线数据,实现个性化和自适应的参数调整。

技术框架:DRL-PUT框架主要包含以下几个模块:1) 状态表示:将广告请求的上下文信息编码为状态向量。2) 动作空间:定义可调整的效用函数参数范围。3) 奖励函数:根据业务目标(如点击率、长期点击率等)设计奖励信号。4) 策略网络:使用深度神经网络学习状态到动作的映射,即给定状态,预测最优的效用函数参数。5) 在线学习:利用在线服务日志更新策略网络。

关键创新:该论文最重要的技术创新点在于直接从在线服务日志中学习最优策略模型,避免了传统强化学习中值函数估计的难题。由于广告推荐系统中的奖励信号具有高方差和不平衡分布的特点,值函数估计往往不稳定。通过直接学习策略,可以更有效地利用数据,提高学习效率。

关键设计:论文中奖励函数的设计至关重要,需要综合考虑多个业务目标。策略网络可以使用各种深度神经网络结构,如多层感知机、循环神经网络等。此外,探索-利用策略的选择也会影响学习效果,常用的方法包括ε-greedy策略、softmax策略等。论文还进行了消融实验,分析了不同奖励函数和策略网络结构对性能的影响。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在线A/B实验结果表明,与基线手动效用调整方法相比,DRL-PUT框架在Pinterest的广告推荐系统中使点击率提高了9.7%,长期点击率提高了7.7%。这些显著的性能提升验证了DRL-PUT框架的有效性,表明其能够更好地平衡不同业务目标,提升整体推荐效果。

🎯 应用场景

该研究成果可广泛应用于各种在线广告推荐系统,尤其适用于需要平衡多个业务目标的场景。通过自动优化排序效用函数,可以提升用户体验、增加广告收入,并更好地满足广告商的需求。该方法还可扩展到其他推荐场景,如商品推荐、内容推荐等,具有重要的实际应用价值和商业潜力。

📄 摘要(原文)

The ranking utility function in an ad recommender system, which linearly combines predictions of various business goals, plays a central role in balancing values across the platform, advertisers, and users. Traditional manual tuning, while offering simplicity and interpretability, often yields suboptimal results due to its unprincipled tuning objectives, the vast amount of parameter combinations, and its lack of personalization and adaptability to seasonality. In this work, we propose a general Deep Reinforcement Learning framework for Personalized Utility Tuning (DRL-PUT) to address the challenges of multi-objective optimization within ad recommender systems. Our key contributions include: 1) Formulating the problem as a reinforcement learning task: given the state of an ad request, we predict the optimal hyperparameters to maximize a pre-defined reward. 2) Developing an approach to directly learn an optimal policy model using online serving logs, avoiding the need to estimate a value function, which is inherently challenging due to the high variance and unbalanced distribution of immediate rewards. We evaluated DRL-PUT through an online A/B experiment in Pinterest's ad recommender system. Compared to the baseline manual utility tuning approach, DRL-PUT improved the click-through rate by 9.7% and the long click-through rate by 7.7% on the treated segment. We conducted a detailed ablation study on the impact of different reward definitions and analyzed the personalization aspect of the learned policy model.