C2:Cross learning module enhanced decision transformer with Constraint-aware loss for auto-bidding
作者: Jinren Ding, Xuejian Xu, Shen Jiang, Zhitong Hao, Jinhui Yang, Peng Jiang
分类: cs.LG, cs.GT
发布日期: 2026-01-28
🔗 代码/项目: GITHUB
💡 一句话要点
C2:结合约束感知损失的交叉学习决策Transformer,用于增强自动竞价效果
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 自动竞价 决策Transformer 交叉学习 约束优化 强化学习
📋 核心要点
- 现有决策Transformer在自动竞价中,未能充分建模状态、动作和回报序列间的交叉关系。
- C2框架通过交叉学习块(CLB)和约束感知损失(CL),增强序列相关性建模并选择性学习最优轨迹。
- 在AuctionNet数据集上的实验表明,C2在不同预算下均优于GAVE,提升高达3.23%。
📝 摘要(中文)
决策Transformer (DT) 通过捕获时间依赖性,在生成式自动竞价方面展现了潜力,但存在两个关键限制:状态、动作和回报序列之间缺乏充分的交叉相关性建模,以及对最优/次优行为的无差别学习。为了解决这些问题,我们提出了 C2,这是一个通过两个核心创新增强 DT 的新框架:(1) 通过交叉注意力机制的交叉学习块 (CLB),以加强序列间的相关性建模;(2) 结合预算和每次获取成本 (CPA) 约束的约束感知损失 (CL),用于选择性地学习最优轨迹。在 AuctionNet 数据集上的大量离线评估表明,在不同的预算设置下,C2 始终优于最先进的 GAVE (高达 3.23%);消融研究验证了 CLB 和 CL 的互补协同作用,证实了 C2 在自动竞价方面的优越性。代码可在 https://github.com/Dingjinren/C2 获取。
🔬 方法详解
问题定义:论文旨在解决自动竞价场景中,决策Transformer (DT) 模型无法充分利用状态、动作和回报序列之间的交叉相关性,以及无法区分学习最优和次优行为的问题。现有方法通常平等对待所有历史数据,导致模型学习到次优策略,影响竞价效果。
核心思路:论文的核心思路是通过引入交叉学习机制,增强模型对状态、动作和回报序列之间关系的理解,并利用约束感知损失函数,引导模型选择性地学习最优轨迹。这样可以提高模型在预算和CPA约束下的竞价效率。
技术框架:C2框架基于决策Transformer,主要包含两个核心模块:交叉学习块 (CLB) 和约束感知损失 (CL)。CLB通过交叉注意力机制,在状态、动作和回报序列之间进行信息交互,增强序列间的相关性建模。CL则根据预算和CPA约束,对不同轨迹赋予不同的权重,引导模型学习最优策略。整体流程是先通过CLB增强特征表示,然后使用CL进行训练。
关键创新:论文的关键创新在于提出了交叉学习块 (CLB) 和约束感知损失 (CL)。CLB通过交叉注意力机制,显式地建模了状态、动作和回报序列之间的关系,克服了传统DT模型中信息交互不足的问题。CL则通过引入预算和CPA约束,实现了对最优轨迹的选择性学习,避免了次优行为的干扰。
关键设计:CLB的具体实现是使用多头交叉注意力机制,将状态、动作和回报序列作为query、key和value进行交互。CL的设计是基于重要性采样的思想,根据轨迹的预算消耗和CPA表现,计算每个轨迹的权重,并将其作为损失函数的系数。损失函数采用标准的序列建模损失,例如交叉熵损失或均方误差损失。
🖼️ 关键图片
📊 实验亮点
实验结果表明,C2框架在AuctionNet数据集上,相比于最先进的GAVE模型,在不同预算设置下均取得了显著的性能提升,最高提升幅度达到3.23%。消融实验验证了交叉学习块 (CLB) 和约束感知损失 (CL) 的有效性,证明了它们能够相互协同,共同提升自动竞价的效果。这些结果表明C2在自动竞价任务中具有优越性。
🎯 应用场景
该研究成果可应用于各种在线广告竞价场景,例如搜索广告、展示广告和视频广告等。通过更有效地利用历史数据和约束条件,C2框架可以帮助广告主在预算约束下最大化广告投放效果,提高投资回报率。未来,该方法还可以扩展到其他序列决策问题,例如推荐系统和智能控制等。
📄 摘要(原文)
Decision Transformer (DT) shows promise for generative auto-bidding by capturing temporal dependencies, but suffers from two critical limitations: insufficient cross-correlation modeling among state, action, and return-to-go (RTG) sequences, and indiscriminate learning of optimal/suboptimal behaviors. To address these, we propose C2, a novel framework enhancing DT with two core innovations: (1) a Cross Learning Block (CLB) via cross-attention to strengthen inter-sequence correlation modeling; (2) a Constraint-aware Loss (CL) incorporating budget and Cost-Per-Acquisition (CPA) constraints for selective learning of optimal trajectories. Extensive offline evaluations on the AuctionNet dataset demonstrate consistent performance gains (up to 3.23\% over state-of-the-art GAVE) across diverse budget settings; ablation studies verify the complementary synergy of CLB and CL, confirming C2's superiority in auto-bidding. The code for reproducing our results is available at: https://github.com/Dingjinren/C2.