A Unified Knowledge-Distillation and Semi-Supervised Learning Framework to Improve Industrial Ads Delivery Systems
作者: Hamid Eghbalzadeh, Yang Wang, Rui Li, Yuji Mo, Qin Ding, Jiaxiang Fu, Liang Dai, Shuo Gu, Nima Noorshams, Sem Park, Bo Long, Xue Feng
分类: cs.LG, cs.AI
发布日期: 2025-02-05
💡 一句话要点
提出UKDSL框架,融合知识蒸馏与半监督学习,提升工业广告投放系统性能。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 知识蒸馏 半监督学习 广告排序 工业应用 模型优化
📋 核心要点
- 现有广告排序系统依赖标注数据,易过拟合,模型扩展收益递减,且存在训练-服务数据偏差。
- 提出UKDSL框架,融合知识蒸馏与半监督学习,利用大规模未标注数据提升模型泛化能力。
- UKDSL已成功部署于工业级广告投放系统,服务数十亿用户,显著提升排序性能和计算效率。
📝 摘要(中文)
工业广告排序系统通常依赖于标注的展示数据,这导致过拟合、模型扩展的增益减缓以及训练和服务数据之间差异造成的偏差等问题。为了克服这些问题,我们提出了一种统一的知识蒸馏和半监督学习框架(UKDSL)用于广告排序,该框架能够利用更大规模和更多样化的数据集来训练模型,从而减少过拟合并减轻训练-服务数据差异。我们对多阶段排序系统中固有的校准误差和预测偏差进行了详细的形式分析和数值模拟,并提供了经验证据表明所提出的框架能够缓解这些问题。与先前的工作相比,UKDSL能够使模型从更大的未标注数据集中学习,从而提高性能,同时保持计算效率。最后,我们报告了UKDSL在工业环境中的成功部署,该系统服务于数十亿规模的用户,跨越各种界面、地理位置和客户,并针对各种事件进行优化。据我们所知,就其运行的规模和效率而言,这是同类中的首例。
🔬 方法详解
问题定义:工业广告排序系统依赖于标注的展示数据,但获取大量高质量标注数据成本高昂。此外,仅依赖标注数据容易导致模型过拟合,泛化能力不足,难以适应不断变化的用户行为和广告环境。训练数据与线上服务数据分布的差异也会导致模型性能下降。
核心思路:UKDSL的核心思路是结合知识蒸馏和半监督学习,利用大规模未标注数据来提升模型的泛化能力和鲁棒性。知识蒸馏允许将复杂模型的知识迁移到更小的模型,提高计算效率。半监督学习则利用未标注数据来辅助模型训练,减少对标注数据的依赖。通过二者的结合,UKDSL能够有效地利用海量数据,提升广告排序系统的性能。
技术框架:UKDSL框架包含以下主要模块:1) 教师模型训练:使用标注数据训练一个高性能的教师模型。2) 未标注数据预测:使用教师模型对大规模未标注数据进行预测,生成伪标签。3) 学生模型训练:使用标注数据和带有伪标签的未标注数据,结合知识蒸馏和半监督学习方法,训练学生模型。4) 模型部署:将训练好的学生模型部署到线上服务,进行广告排序。
关键创新:UKDSL的关键创新在于将知识蒸馏和半监督学习统一到一个框架中,并针对广告排序任务进行了优化。与传统的知识蒸馏方法相比,UKDSL不仅利用教师模型的预测结果,还利用未标注数据本身的特征信息,从而更好地提升学生模型的性能。与传统的半监督学习方法相比,UKDSL利用知识蒸馏来生成更准确的伪标签,从而提高半监督学习的效果。
关键设计:UKDSL的关键设计包括:1) 伪标签生成策略:采用置信度阈值过滤低质量的伪标签,避免噪声数据对模型训练产生负面影响。2) 知识蒸馏损失函数:结合预测结果的交叉熵损失和特征表示的均方误差损失,从而更好地迁移教师模型的知识。3) 半监督学习损失函数:采用一致性正则化方法,鼓励模型对未标注数据产生一致的预测结果,提高模型的鲁棒性。4) 模型结构:可以使用各种深度学习模型作为教师模型和学生模型,例如深度神经网络、Transformer等。
🖼️ 关键图片
📊 实验亮点
论文在工业级广告投放系统中成功部署了UKDSL框架,服务于数十亿用户。实验结果表明,与传统的基于标注数据的排序模型相比,UKDSL框架能够显著提升广告点击率和转化率,同时降低计算成本。具体性能提升数据未知,但强调了规模和效率上的优势。
🎯 应用场景
UKDSL框架可广泛应用于各种工业广告投放系统,尤其是在标注数据稀缺或训练-服务数据存在偏差的场景下。该框架能够有效提升广告排序的准确性和效率,提高广告点击率和转化率,从而为广告主和用户带来更好的体验。此外,该框架还可以应用于其他推荐系统、搜索系统等领域。
📄 摘要(原文)
Industrial ads ranking systems conventionally rely on labeled impression data, which leads to challenges such as overfitting, slower incremental gain from model scaling, and biases due to discrepancies between training and serving data. To overcome these issues, we propose a Unified framework for Knowledge-Distillation and Semi-supervised Learning (UKDSL) for ads ranking, empowering the training of models on a significantly larger and more diverse datasets, thereby reducing overfitting and mitigating training-serving data discrepancies. We provide detailed formal analysis and numerical simulations on the inherent miscalibration and prediction bias of multi-stage ranking systems, and show empirical evidence of the proposed framework's capability to mitigate those. Compared to prior work, UKDSL can enable models to learn from a much larger set of unlabeled data, hence, improving the performance while being computationally efficient. Finally, we report the successful deployment of UKDSL in an industrial setting across various ranking models, serving users at multi-billion scale, across various surfaces, geological locations, clients, and optimize for various events, which to the best of our knowledge is the first of its kind in terms of the scale and efficiency at which it operates.