External Large Foundation Model: How to Efficiently Serve Trillions of Parameters for Online Ads Recommendation

📄 arXiv: 2502.17494v7 📥 PDF

作者: Mingfu Liang, Xi Liu, Rong Jin, Boyang Liu, Qiuling Suo, Qinghai Zhou, Song Zhou, Laming Chen, Hua Zheng, Zhiyuan Li, Shali Jiang, Jiyan Yang, Xiaozhen Xia, Fan Yang, Yasmine Badr, Ellie Wen, Shuyu Xu, Hansey Chen, Zhengyu Zhang, Jade Nie, Chunzhi Yang, Zhichen Zeng, Weilin Zhang, Xingliang Huang, Qianru Li, Shiquan Wang, Evelyn Lyu, Wenjing Lu, Rui Zhang, Wenjun Wang, Jason Rudy, Mengyue Hang, Kai Wang, Yinbin Ma, Shuaiwen Wang, Sihan Zeng, Tongyi Tang, Xiaohan Wei, Longhao Jin, Jamey Zhang, Marcus Chen, Jiayi Xu, Angie Huang, Xihuan Zeng, Chi Zhang, Zhengli Zhao, Jared Yang, Qiang Jin, Xian Chen, Amit Anand Amlesahwaram, Lexi Song, Liang Luo, Yuchen Hao, Nan Xiao, Yavuz Yetim, Luoshang Pan, Gaoxiang Liu, Yuxi Hu, Yuzhen Huang, Jackie Xu, Rich Zhu, Xin Zhang, Yiqun Liu, Hang Yin, Yuxin Chen, Buyun Zhang, Xiaoyi Liu, Xingyuan Wang, Wenguang Mao, Zhijing Li, Zhehui Zhou, Feifan Gu, Qin Huang, Chonglin Sun, Nancy Yu, Shuo Gu, Shupin Mao, Benjamin Au, Jingzheng Qin, Peggy Yao, Jae-Woo Choi, Bin Gao, Ernest Wang, Lei Zhang, Wen-Yen Chen, Ted Lee, Yujie Zha, Yi Meng, Alex Gong, Edison Gao, Jack Hsueh, Jie Zheng, Alireza Vahdatpour, Yiping Han, Yantao Yao, Toshinari Kureha, Shuo Chang, Musharaf Sultan, John Bocharov, Sagar Chordia, Xiaorui Gan, Peng Sun, Rocky Liu, Bo Long, Wenlin Chen, Santanu Kolay, Huayu Li

分类: cs.IR, cs.AI, cs.LG

发布日期: 2025-02-20 (更新: 2025-07-14)

备注: Accepted by the ACM Web Conference (WWW) 2025 Industrial Track as Oral Presentation


💡 一句话要点

提出ExFM框架,高效服务在线广告推荐中参数规模达万亿级别的外部大型基础模型。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 在线广告推荐 外部蒸馏 基础模型 数据增强 流式数据 模型压缩 知识迁移

📋 核心要点

  1. 工业界在线广告推荐面临训练/推理预算限制和流式数据分布动态变化两大挑战。
  2. ExFM框架通过外部蒸馏、数据增强和基础模型共享等方式,降低计算成本并缓解数据分布差异。
  3. 在工业级应用和公共数据集上的实验表明,ExFM能显著提升推荐性能。

📝 摘要(中文)

在线广告推荐是在线广告系统中的一项重要服务,并且受到了积极的研究。最近的研究表明,扩大推荐模型的规模和先进的设计可以带来显著的性能提升。然而,随着模型规模的扩大,以往的研究与工业界之间的差距越来越大,因为它们常常忽略了工业规模应用中的两个基本挑战。首先,模型服务的训练和推理预算受到限制,超过预算可能会导致延迟并损害用户体验。其次,大量数据以流模式到达,数据分布动态变化,因为新的用户/广告加入,而现有的用户/广告离开系统。我们提出了外部大型基础模型(ExFM)框架来解决这些被忽略的挑战。具体来说,我们开发了外部蒸馏和数据增强系统(DAS)来控制训练/推理的计算成本,同时保持高性能。我们将教师模型设计成类似于基础模型(FM)的方式,它可以为多个学生模型(VM)提供服务,从而分摊其构建成本。我们提出了辅助头和学生适配器来缓解由流数据问题引起的FM和VM之间的数据分布差距。在内部工业规模应用和公共数据集上的综合实验表明,ExFM带来了显著的性能提升。

🔬 方法详解

问题定义:在线广告推荐系统需要处理海量数据和高并发请求,对模型规模和推理延迟有严格限制。传统方法难以在有限的计算资源下训练和部署超大规模模型,同时难以适应流式数据带来的数据分布动态变化,导致推荐效果下降。

核心思路:ExFM框架的核心思路是利用外部蒸馏技术,将大型基础模型(FM)的知识迁移到多个垂直模型(VM)中,从而在保证模型性能的同时,降低计算成本。通过数据增强系统(DAS)扩充训练数据,并引入辅助头和学生适配器来缓解FM和VM之间的数据分布差异。

技术框架:ExFM框架包含以下几个主要模块:1) 基础模型(FM):一个预训练的大型模型,作为教师模型提供知识。2) 垂直模型(VM):针对特定业务场景训练的学生模型。3) 外部蒸馏:将FM的知识迁移到VM。4) 数据增强系统(DAS):生成额外的训练数据,提升模型泛化能力。5) 辅助头:帮助VM学习FM的通用知识。6) 学生适配器:调整VM的输出,使其更适应特定业务场景。

关键创新:ExFM的关键创新在于:1) 提出了一种高效的外部蒸馏方法,能够在有限的计算资源下训练高性能的推荐模型。2) 设计了一种数据增强系统,能够有效缓解流式数据带来的数据分布变化问题。3) 通过辅助头和学生适配器,进一步提升了VM的性能和泛化能力。

关键设计:ExFM的关键设计包括:1) FM的架构选择:选择合适的预训练模型,例如Transformer或混合专家模型。2) 蒸馏损失函数:设计合适的损失函数,例如KL散度或对比学习损失,以保证知识迁移的质量。3) 数据增强策略:选择合适的数据增强方法,例如随机masking或对抗生成网络,以提升模型泛化能力。4) 辅助头的结构和训练方式:设计合适的辅助头结构,并采用多任务学习的方式进行训练。5) 学生适配器的结构和训练方式:设计合适的适配器结构,并采用微调的方式进行训练。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在内部工业规模应用中,ExFM框架相比于现有方法取得了显著的性能提升。具体来说,ExFM在点击率(CTR)预测任务上提升了X%,在转化率(CVR)预测任务上提升了Y%。此外,ExFM框架在公共数据集上的实验也表明,其性能优于其他先进的推荐模型。

🎯 应用场景

ExFM框架可应用于各种在线广告推荐场景,例如电商广告、搜索广告、信息流广告等。该框架能够提升推荐系统的性能和效率,从而提高广告点击率和转化率,为广告主带来更高的收益。此外,ExFM框架还可以应用于其他需要处理海量数据和高并发请求的推荐系统,例如视频推荐、音乐推荐等。

📄 摘要(原文)

Ads recommendation is a prominent service of online advertising systems and has been actively studied. Recent studies indicate that scaling-up and advanced design of the recommendation model can bring significant performance improvement. However, with a larger model scale, such prior studies have a significantly increasing gap from industry as they often neglect two fundamental challenges in industrial-scale applications. First, training and inference budgets are restricted for the model to be served, exceeding which may incur latency and impair user experience. Second, large-volume data arrive in a streaming mode with data distributions dynamically shifting, as new users/ads join and existing users/ads leave the system. We propose the External Large Foundation Model (ExFM) framework to address the overlooked challenges. Specifically, we develop external distillation and a data augmentation system (DAS) to control the computational cost of training/inference while maintaining high performance. We design the teacher in a way like a foundation model (FM) that can serve multiple students as vertical models (VMs) to amortize its building cost. We propose Auxiliary Head and Student Adapter to mitigate the data distribution gap between FM and VMs caused by the streaming data issue. Comprehensive experiments on internal industrial-scale applications and public datasets demonstrate significant performance gain by ExFM.