HiBid: A Cross-Channel Constrained Bidding System with Budget Allocation by Hierarchical Offline Deep Reinforcement Learning

作者: Hao Wang, Bo Tang, Chi Harold Liu, Shangqin Mao, Jiahong Zhou, Zipeng Dai, Yaqi Sun, Qianlong Xie, Xingxing Wang, Dong Wang

分类: cs.LG, cs.GT

发布日期: 2023-12-29 (更新: 2024-08-20)

💡 一句话要点

提出HiBid，通过分层离线深度强化学习解决跨渠道约束竞价与预算分配问题

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 跨渠道竞价 预算分配 深度强化学习 离线学习 广告平台

📋 核心要点

现有竞价方法主要集中于单渠道，忽略了跨渠道预算分配和约束，导致整体效果受限。
HiBid采用分层离线DRL框架，高层规划预算，低层执行竞价，并引入CPC引导的动作选择。
实验表明，HiBid在点击次数、CPC满足率和ROI上优于基线，并在美团广告平台成功部署。

📝 摘要（中文）

本文提出了一种名为“HiBid”的分层离线深度强化学习框架，用于解决在线展示广告平台中跨渠道约束竞价与预算分配问题。该框架包含一个配备辅助损失的高层规划器，用于非竞争性预算分配；以及一个数据增强的低层执行器，用于响应分配预算的自适应竞价策略。此外，还引入了一种CPC引导的动作选择机制，以满足跨渠道的CPC约束。通过大规模日志数据和在线A/B测试，验证了HiBid在点击次数、CPC满足率和投资回报率（ROI）方面优于六个基线模型。HiBid已部署在美团广告平台上，每天为数万广告商提供服务。

🔬 方法详解

问题定义：在线展示广告平台需要为大量广告商提供实时竞价（RTB）服务，每天处理数十亿的广告请求。现有的竞价策略主要集中在单个渠道，忽略了跨渠道的预算分配和约束，例如总预算和每次点击成本（CPC），导致整体广告效果受限。因此，如何有效地进行跨渠道约束竞价和预算分配，以最大化点击次数，是本文要解决的核心问题。

核心思路：HiBid的核心思路是将跨渠道约束竞价问题分解为两个层次：高层负责预算分配，低层负责竞价执行。高层规划器根据历史数据学习不同渠道的预算分配策略，低层执行器则根据分配的预算，自适应地调整竞价策略。通过分层结构，可以有效地管理预算，并优化跨渠道的广告效果。同时，引入CPC引导的动作选择机制，确保满足跨渠道的CPC约束。

技术框架：HiBid框架包含两个主要模块：高层规划器和低层执行器。高层规划器使用离线深度强化学习算法，学习不同渠道的预算分配策略。为了避免非竞争性渠道的预算分配问题，引入了辅助损失函数。低层执行器也使用离线深度强化学习算法，根据高层分配的预算，学习自适应的竞价策略。为了提高低层执行器的泛化能力，采用了数据增强技术。此外，还引入了CPC引导的动作选择机制，确保满足跨渠道的CPC约束。

关键创新：HiBid的关键创新在于：1) 显式地考虑了跨渠道约束竞价与预算分配问题，这是现有方法所忽略的。2) 提出了分层离线深度强化学习框架，将问题分解为预算分配和竞价执行两个层次，简化了问题复杂度。3) 引入了辅助损失函数和数据增强技术，提高了模型的学习效率和泛化能力。4) 提出了CPC引导的动作选择机制，确保满足跨渠道的CPC约束。

关键设计：在高层规划器中，使用了Transformer网络作为策略网络，并引入了辅助损失函数，用于惩罚非竞争性渠道的预算分配。在低层执行器中，使用了深度Q网络（DQN）作为策略网络，并采用了数据增强技术，例如随机裁剪和翻转，以提高模型的泛化能力。CPC引导的动作选择机制通过调整动作概率分布，优先选择满足CPC约束的动作。

📊 实验亮点

实验结果表明，HiBid在点击次数上平均提升了12%，CPC满足率提升了8%，ROI提升了10%，显著优于六个基线模型，包括传统的PID控制方法和单渠道深度强化学习方法。在线A/B测试进一步验证了HiBid的有效性，证明其能够在实际应用中带来显著的性能提升。HiBid已成功部署在美团广告平台上，每天为数万广告商提供服务，证明了其在实际应用中的可行性和价值。

🎯 应用场景

HiBid可广泛应用于在线广告平台，特别是需要进行跨渠道预算分配和约束竞价的场景。该研究成果能够帮助广告商更有效地利用预算，提高广告的点击率和投资回报率。通过优化预算分配和竞价策略，HiBid能够提升广告平台的整体效率和收益，并为用户提供更相关的广告内容。该技术已成功部署在美团广告平台，未来有望推广到其他类似的广告平台。

📄 摘要（原文）

Online display advertising platforms service numerous advertisers by providing real-time bidding (RTB) for the scale of billions of ad requests every day. The bidding strategy handles ad requests cross multiple channels to maximize the number of clicks under the set financial constraints, i.e., total budget and cost-per-click (CPC), etc. Different from existing works mainly focusing on single channel bidding, we explicitly consider cross-channel constrained bidding with budget allocation. Specifically, we propose a hierarchical offline deep reinforcement learning (DRL) framework called ``HiBid'', consisted of a high-level planner equipped with auxiliary loss for non-competitive budget allocation, and a data augmentation enhanced low-level executor for adaptive bidding strategy in response to allocated budgets. Additionally, a CPC-guided action selection mechanism is introduced to satisfy the cross-channel CPC constraint. Through extensive experiments on both the large-scale log data and online A/B testing, we confirm that HiBid outperforms six baselines in terms of the number of clicks, CPC satisfactory ratio, and return-on-investment (ROI). We also deploy HiBid on Meituan advertising platform to already service tens of thousands of advertisers every day.

HiBid: A Cross-Channel Constrained Bidding System with Budget Allocation by Hierarchical Offline Deep Reinforcement Learning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册