Bid2X: Revealing Dynamics of Bidding Environment in Online Advertising from A Foundation Model Lens

📄 arXiv: 2510.23410v1 📥 PDF

作者: Jiahao Ji, Tianyu Wang, Yeshu Li, Yushen Huo, Zhilin Zhang, Chuan Yu, Jian Xu, Bo Zheng

分类: cs.AI

发布日期: 2025-10-27

备注: 12 pages, KDD 2025


💡 一句话要点

Bid2X:通过基础模型揭示在线广告竞价环境的动态特性

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 在线广告 自动竞价 基础模型 注意力机制 零膨胀模型

📋 核心要点

  1. 现有竞价模型通常针对特定场景设计,泛化能力有限,难以适应复杂多变的在线广告环境。
  2. Bid2X通过学习一个统一的竞价效果函数,实现与场景无关的竞价策略,提升模型在不同场景下的泛化能力。
  3. 实验结果表明,Bid2X在多个数据集上优于现有模型,并在淘宝广告平台部署后显著提升了GMV和ROI。

📝 摘要(中文)

自动竞价通过为广告商自动提供竞价,在在线广告中至关重要。虽然之前的工作在建模竞价环境以获得更好的广告效果方面做出了很大努力,但由于这些模型通常是为特定的竞价场景量身定制的,因此在不同环境中的泛化能力有限。为此,我们通过一个统一的函数来估计特定竞价下的效果(如预算消耗、商品交易总额(GMV)、页面浏览量等)来研究与场景无关的原则。然后,我们提出了一个竞价基础模型Bid2X,从各种场景的数据中学习这个基本函数。我们的Bid2X建立在统一的序列嵌入之上,通过定制的嵌入方法对异构数据进行编码。为了捕捉竞价数据中复杂的变量间和动态时间依赖关系,我们提出了两种注意力机制,分别将不同变量的嵌入和不同时间的嵌入作为注意力令牌进行表征学习。在学习到的变量和时间表征的基础上,使用一个变量感知融合模块来执行自适应竞价结果预测。为了模拟独特的竞价数据分布,我们设计了一个零膨胀投影模块,将估计的非零概率纳入其值预测,从而构成一个包含分类和回归的联合优化目标。该目标被证明可以收敛到零膨胀分布。我们的模型已部署在淘宝(世界上最大的电子商务平台之一)的广告平台上。在八个数据集上的离线评估表明,与各种基线相比,Bid2X具有优越性和跨不同场景的通用性。在线A/B测试中,Bid2X使GMV提高了4.65%,ROI提高了2.44%,为计算广告中的竞价基础模型铺平了道路。

🔬 方法详解

问题定义:论文旨在解决在线广告竞价环境中,现有竞价模型泛化能力不足的问题。现有模型通常针对特定竞价场景进行优化,难以适应不同场景下的数据分布和竞价策略,导致广告效果下降。

核心思路:论文的核心思路是学习一个与场景无关的竞价效果函数,该函数能够预测在给定竞价下,各种广告效果指标(如GMV、预算消耗等)的预期值。通过学习这个通用函数,模型可以更好地适应不同场景,提高泛化能力。

技术框架:Bid2X的整体框架包括以下几个主要模块:1) 统一序列嵌入:使用定制的嵌入方法对异构数据进行编码,形成统一的序列嵌入;2) 注意力机制:分别对不同变量的嵌入和不同时间的嵌入应用注意力机制,捕捉变量间和时间上的依赖关系;3) 变量感知融合:基于学习到的变量和时间表征,使用变量感知融合模块进行自适应竞价结果预测;4) 零膨胀投影:模拟竞价数据的特殊分布,将非零概率纳入值预测,构成联合优化目标。

关键创新:论文的关键创新在于提出了一个竞价基础模型Bid2X,该模型能够学习与场景无关的竞价效果函数。通过统一序列嵌入、注意力机制和变量感知融合等技术,Bid2X能够有效地捕捉竞价数据中复杂的依赖关系,并提高模型的泛化能力。此外,零膨胀投影模块的设计也考虑了竞价数据的特殊分布,进一步提升了模型的预测精度。

关键设计:Bid2X的关键设计包括:1) 使用Transformer架构作为基础模型,利用其强大的表征学习能力;2) 设计了两种注意力机制,分别关注变量间和时间上的依赖关系;3) 提出了变量感知融合模块,根据不同变量的重要性进行自适应融合;4) 采用了零膨胀损失函数,将分类和回归任务联合优化,更好地模拟竞价数据的分布。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Bid2X在八个数据集上的离线评估中表现出优于各种基线的性能。在淘宝广告平台的在线A/B测试中,Bid2X使GMV提高了4.65%,ROI提高了2.44%。这些结果表明,Bid2X具有很强的实用价值和推广潜力,为计算广告领域的竞价基础模型研究奠定了基础。

🎯 应用场景

Bid2X模型可广泛应用于各种在线广告平台,帮助广告商制定更有效的竞价策略,提高广告投放效果。该模型尤其适用于具有复杂竞价环境和多样化广告场景的平台,例如电商平台、搜索引擎等。通过提升广告效果,Bid2X能够为广告商带来更高的收益,并为平台创造更大的价值。

📄 摘要(原文)

Auto-bidding is crucial in facilitating online advertising by automatically providing bids for advertisers. While previous work has made great efforts to model bidding environments for better ad performance, it has limitations in generalizability across environments since these models are typically tailored for specific bidding scenarios. To this end, we approach the scenario-independent principles through a unified function that estimates the achieved effect under specific bids, such as budget consumption, gross merchandise volume (GMV), page views, etc. Then, we propose a bidding foundation model Bid2X to learn this fundamental function from data in various scenarios. Our Bid2X is built over uniform series embeddings that encode heterogeneous data through tailored embedding methods. To capture complex inter-variable and dynamic temporal dependencies in bidding data, we propose two attention mechanisms separately treating embeddings of different variables and embeddings at different times as attention tokens for representation learning. On top of the learned variable and temporal representations, a variable-aware fusion module is used to perform adaptive bidding outcome prediction. To model the unique bidding data distribution, we devise a zero-inflated projection module to incorporate the estimated non-zero probability into its value prediction, which makes up a joint optimization objective containing classification and regression. The objective is proven to converge to the zero-inflated distribution. Our model has been deployed on the ad platform in Taobao, one of the world's largest e-commerce platforms. Offline evaluation on eight datasets exhibits Bid2X's superiority compared to various baselines and its generality across different scenarios. Bid2X increased GMV by 4.65% and ROI by 2.44% in online A/B tests, paving the way for bidding foundation model in computational advertising.