C2:Cross learning module enhanced decision transformer with Constraint-aware loss for auto-bidding

作者: Jinren Ding, Xuejian Xu, Shen Jiang, Zhitong Hao, Jinhui Yang, Peng Jiang

分类: cs.LG, cs.GT

发布日期: 2026-01-28

🔗 代码/项目: GITHUB

💡 一句话要点

C2：结合约束感知损失的交叉学习决策Transformer，用于增强自动竞价效果

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 自动竞价 决策Transformer 交叉学习 约束优化 强化学习

📋 核心要点

现有决策Transformer在自动竞价中，未能充分建模状态、动作和回报序列间的交叉关系。
C2框架通过交叉学习块(CLB)和约束感知损失(CL)，增强序列相关性建模并选择性学习最优轨迹。
在AuctionNet数据集上的实验表明，C2在不同预算下均优于GAVE，提升高达3.23%。

📝 摘要（中文）

决策Transformer (DT) 通过捕获时间依赖性，在生成式自动竞价方面展现了潜力，但存在两个关键限制：状态、动作和回报序列之间缺乏充分的交叉相关性建模，以及对最优/次优行为的无差别学习。为了解决这些问题，我们提出了 C2，这是一个通过两个核心创新增强 DT 的新框架：(1) 通过交叉注意力机制的交叉学习块 (CLB)，以加强序列间的相关性建模；(2) 结合预算和每次获取成本 (CPA) 约束的约束感知损失 (CL)，用于选择性地学习最优轨迹。在 AuctionNet 数据集上的大量离线评估表明，在不同的预算设置下，C2 始终优于最先进的 GAVE (高达 3.23%)；消融研究验证了 CLB 和 CL 的互补协同作用，证实了 C2 在自动竞价方面的优越性。代码可在 https://github.com/Dingjinren/C2 获取。

🔬 方法详解

问题定义：论文旨在解决自动竞价场景中，决策Transformer (DT) 模型无法充分利用状态、动作和回报序列之间的交叉相关性，以及无法区分学习最优和次优行为的问题。现有方法通常平等对待所有历史数据，导致模型学习到次优策略，影响竞价效果。

核心思路：论文的核心思路是通过引入交叉学习机制，增强模型对状态、动作和回报序列之间关系的理解，并利用约束感知损失函数，引导模型选择性地学习最优轨迹。这样可以提高模型在预算和CPA约束下的竞价效率。

技术框架：C2框架基于决策Transformer，主要包含两个核心模块：交叉学习块 (CLB) 和约束感知损失 (CL)。CLB通过交叉注意力机制，在状态、动作和回报序列之间进行信息交互，增强序列间的相关性建模。CL则根据预算和CPA约束，对不同轨迹赋予不同的权重，引导模型学习最优策略。整体流程是先通过CLB增强特征表示，然后使用CL进行训练。

关键创新：论文的关键创新在于提出了交叉学习块 (CLB) 和约束感知损失 (CL)。CLB通过交叉注意力机制，显式地建模了状态、动作和回报序列之间的关系，克服了传统DT模型中信息交互不足的问题。CL则通过引入预算和CPA约束，实现了对最优轨迹的选择性学习，避免了次优行为的干扰。

关键设计：CLB的具体实现是使用多头交叉注意力机制，将状态、动作和回报序列作为query、key和value进行交互。CL的设计是基于重要性采样的思想，根据轨迹的预算消耗和CPA表现，计算每个轨迹的权重，并将其作为损失函数的系数。损失函数采用标准的序列建模损失，例如交叉熵损失或均方误差损失。

🖼️ 关键图片

📊 实验亮点

实验结果表明，C2框架在AuctionNet数据集上，相比于最先进的GAVE模型，在不同预算设置下均取得了显著的性能提升，最高提升幅度达到3.23%。消融实验验证了交叉学习块 (CLB) 和约束感知损失 (CL) 的有效性，证明了它们能够相互协同，共同提升自动竞价的效果。这些结果表明C2在自动竞价任务中具有优越性。

🎯 应用场景

该研究成果可应用于各种在线广告竞价场景，例如搜索广告、展示广告和视频广告等。通过更有效地利用历史数据和约束条件，C2框架可以帮助广告主在预算约束下最大化广告投放效果，提高投资回报率。未来，该方法还可以扩展到其他序列决策问题，例如推荐系统和智能控制等。

📄 摘要（原文）

Decision Transformer (DT) shows promise for generative auto-bidding by capturing temporal dependencies, but suffers from two critical limitations: insufficient cross-correlation modeling among state, action, and return-to-go (RTG) sequences, and indiscriminate learning of optimal/suboptimal behaviors. To address these, we propose C2, a novel framework enhancing DT with two core innovations: (1) a Cross Learning Block (CLB) via cross-attention to strengthen inter-sequence correlation modeling; (2) a Constraint-aware Loss (CL) incorporating budget and Cost-Per-Acquisition (CPA) constraints for selective learning of optimal trajectories. Extensive offline evaluations on the AuctionNet dataset demonstrate consistent performance gains (up to 3.23\% over state-of-the-art GAVE) across diverse budget settings; ablation studies verify the complementary synergy of CLB and CL, confirming C2's superiority in auto-bidding. The code for reproducing our results is available at: https://github.com/Dingjinren/C2.

C2:Cross learning module enhanced decision transformer with Constraint-aware loss for auto-bidding

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理