Session-Level Dynamic Ad Load Optimization using Offline Robust Reinforcement Learning

📄 arXiv: 2501.05591v1 📥 PDF

作者: Tao Liu, Qi Xu, Wei Shi, Zhigang Hua, Shuang Yang

分类: cs.LG

发布日期: 2025-01-09

备注: Will appear in KDD 2025


💡 一句话要点

提出基于离线鲁棒强化学习的会话级动态广告加载优化方法

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 动态广告加载 离线强化学习 鲁棒强化学习 DQN Dueling DQN 混淆偏差 分布偏移

📋 核心要点

  1. 传统因果学习方法在动态广告加载优化中,难以有效处理混淆偏差和分布偏移问题,影响优化效果。
  2. 提出一种基于离线DQN的框架,通过离线学习缓解混淆偏差,并引入鲁棒Dueling DQN增强对分布偏移的适应性。
  3. 实验表明,该方法在离线评估中优于现有因果学习基线,并在在线A/B测试中显著提升了用户参与度和广告收益。

📝 摘要(中文)

本文提出了一种基于离线深度Q网络(DQN)的框架,用于会话级动态广告加载优化,旨在实时个性化用户在线会话期间投放广告的密度和类型,从而动态平衡用户体验质量和广告收益。传统基于因果学习的方法难以应对混淆偏差和分布偏移等关键技术挑战。该框架有效缓解了动态系统中的混淆偏差,并实现了比最佳因果学习生产基线高出80%以上的离线收益。此外,为了提高框架对意外分布偏移的鲁棒性,我们进一步使用一种新颖的离线鲁棒Dueling DQN方法增强了框架。该方法在扰动增加时,在多个OpenAI-Gym数据集上实现了更稳定的奖励,并在真实广告投放数据上提供了额外的5%离线收益。该方法已部署在多个生产系统中,实现了超额的营收增长。上线后的在线A/B测试表明,参与度-广告得分权衡效率提高了两位数,显著增强了平台服务消费者和广告商的能力。

🔬 方法详解

问题定义:会话级动态广告加载优化旨在根据用户在当前会话的行为,动态调整广告的展示密度和类型,以最大化用户体验和广告收益的平衡。现有方法,特别是基于因果学习的方法,在处理用户行为与广告展示之间的混淆偏差以及真实线上环境的分布偏移时存在困难,导致优化效果不佳。

核心思路:本文的核心思路是利用离线强化学习,从历史数据中学习最优的广告加载策略。通过离线学习,可以避免在线探索带来的风险,并有效利用大量历史数据缓解混淆偏差。进一步,引入鲁棒强化学习,增强模型对分布偏移的适应性,提高策略的泛化能力。

技术框架:整体框架基于离线DQN。首先,利用历史数据训练一个DQN模型,该模型学习在不同用户状态下选择最优的广告加载动作。为了提高鲁棒性,引入Dueling DQN结构,将Q值分解为状态值函数和动作优势函数,并采用对抗训练的方式,使模型对输入扰动更加鲁棒。

关键创新:最重要的创新点在于将离线鲁棒强化学习应用于会话级动态广告加载优化。传统的强化学习方法需要在线探索,但在广告系统中存在风险。离线强化学习可以直接从历史数据中学习,避免了在线探索的风险。同时,鲁棒强化学习增强了模型对分布偏移的适应性,提高了策略的泛化能力。

关键设计:关键设计包括:1) 使用Dueling DQN结构,将Q值分解为状态值函数和动作优势函数,提高学习效率;2) 采用对抗训练的方式,通过添加扰动到输入状态,使模型对输入扰动更加鲁棒;3) 设计合适的奖励函数,平衡用户体验和广告收益,例如,将用户点击率、页面停留时间等指标纳入奖励函数。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在离线评估中比最佳因果学习生产基线高出80%以上的收益。通过引入鲁棒Dueling DQN,在真实广告投放数据上获得了额外的5%离线收益。在线A/B测试显示,该方法显著提升了参与度-广告得分权衡效率,实现了两位数的改进,验证了该方法在实际应用中的有效性。

🎯 应用场景

该研究成果可广泛应用于在线广告平台、推荐系统等领域,通过动态调整内容加载策略,提升用户体验和平台收益。该方法能够有效缓解混淆偏差和分布偏移问题,提高策略的鲁棒性和泛化能力,具有重要的实际应用价值和商业前景。未来可以进一步探索更复杂的奖励函数设计和更先进的强化学习算法。

📄 摘要(原文)

Session-level dynamic ad load optimization aims to personalize the density and types of delivered advertisements in real time during a user's online session by dynamically balancing user experience quality and ad monetization. Traditional causal learning-based approaches struggle with key technical challenges, especially in handling confounding bias and distribution shifts. In this paper, we develop an offline deep Q-network (DQN)-based framework that effectively mitigates confounding bias in dynamic systems and demonstrates more than 80% offline gains compared to the best causal learning-based production baseline. Moreover, to improve the framework's robustness against unanticipated distribution shifts, we further enhance our framework with a novel offline robust dueling DQN approach. This approach achieves more stable rewards on multiple OpenAI-Gym datasets as perturbations increase, and provides an additional 5% offline gains on real-world ad delivery data. Deployed across multiple production systems, our approach has achieved outsized topline gains. Post-launch online A/B tests have shown double-digit improvements in the engagement-ad score trade-off efficiency, significantly enhancing our platform's capability to serve both consumers and advertisers.