LoopFM: Learning frOm HistOrical RePresentations of Foundation Model for Recommendation
作者: Shali Jiang, Hua Zheng, Boyang Liu, Laming Chen, Kenny Lov, Chuanqi Xu, Lisang Ding, Qinghai Zhou, Can Cui, Xiaolong Liu, Xiaoyi Liu, Yasmine Badr, Xin Xu, Jiyan Yang, Ellie Dingqiao Wen, Gerard Jonathan Mugisha Akkerhuis, Chenxiao Guan, Rong Jin, Ruichao Qiu, Xian Chen, Shifu Xu, Zhehui Zhou, Ping Chen, Rui Yang, Haicheng Chen, Xiangge Meng, Song Zhou, Dharak Kharod, Shuyu Xu, Qiang Jin, Qiao Yang, Wankun Zhu, Qin Huang, Yuzhen Huang, Darren Liu, Parish Aggarwal, Hui Zhou, Erzhuo Wang, Shuo Chang, Xiaorui Gan, Wenlin Chen, Santanu Kolay, Huayu Li
分类: cs.LG, cs.AI, cs.IR
发布日期: 2026-05-28
备注: Shali Jiang, Hua Zheng, Boyang Liu contributed equally to this work
💡 一句话要点
LoopFM:利用历史表征,提升推荐系统中垂直模型对基础模型的知识迁移效率
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 推荐系统 知识蒸馏 基础模型 中间层表征 迁移学习
📋 核心要点
- 现有知识蒸馏方法在将大型基础模型的知识迁移到垂直模型时,由于信息瓶颈,迁移效率会显著降低。
- LoopFM通过将基础模型的中间层表征作为垂直模型的输入特征,构建高带宽的知识迁移通道,避免了实时推理和架构耦合。
- 实验表明,LoopFM在多个数据集上显著提升了推荐性能,并在工业级系统中实现了转化率的提升,验证了其有效性。
📝 摘要(中文)
知识蒸馏(KD)将大型基础模型(FM)的单个标量预测传递给紧凑的垂直模型(VM),但存在迁移率降低的问题——VM捕获的FM改进比例会随着FM的增大而降低,因为单个标量无法传递大型FM学习到的丰富的中间知识。为了解决这个瓶颈,我们提出了LoopFM(Learning frOm HistOrical RePresentations of FM),该框架通过将FM中间嵌入结构化为下游VM的输入特征(例如,用户历史序列)来打开高带宽传输通道,而无需在服务时进行实时FM推理以及FM和VM之间的架构耦合。我们为LoopFM提供了一个增益分解和传输率分析的理论框架。在三个公共基准测试中,LoopFM展示了强大的AUC改进(例如,在淘宝广告上超过6%),以及与KD互补的知识转移能力。在工业规模系统(数十亿个示例,万亿参数FM)上,LoopFM在KD的基础上大约使知识转移率翻倍,在Y1H1中实现了+0.5%的转化率提升,并且在Y1H2的两次独立发布中分别实现了+1.03%和+1.22%的转化率提升。
🔬 方法详解
问题定义:现有知识蒸馏方法在将大型基础模型(FM)的知识迁移到垂直模型(VM)时,通常只传递最终的预测结果(单个标量)。这种方式无法充分利用FM学习到的丰富中间层信息,导致知识迁移效率降低,即VM无法充分捕获FM的改进。尤其是在FM规模增大时,这种信息瓶颈问题更加突出。
核心思路:LoopFM的核心思路是利用FM的中间层表征作为VM的输入特征,从而建立一个高带宽的知识迁移通道。具体来说,将用户历史序列等信息输入FM,提取FM在不同层的嵌入向量,并将这些向量作为VM的输入特征。这样,VM可以直接学习FM的中间层知识,而不仅仅是最终的预测结果。
技术框架:LoopFM框架主要包含两个部分:基础模型(FM)和垂直模型(VM)。FM负责提取用户和物品的表征,VM负责进行最终的推荐预测。FM的中间层嵌入被提取出来,作为VM的输入特征。VM可以是任何现有的推荐模型,例如深度学习模型或矩阵分解模型。整个流程不需要FM的实时推理,也不需要FM和VM之间的架构耦合。
关键创新:LoopFM的关键创新在于利用FM的中间层表征作为VM的输入特征,从而打破了知识蒸馏的信息瓶颈。与传统的知识蒸馏方法相比,LoopFM可以传递更多的知识,从而提高VM的性能。此外,LoopFM不需要FM的实时推理,也不需要FM和VM之间的架构耦合,因此可以灵活地应用于各种推荐场景。
关键设计:LoopFM的关键设计包括:1) 如何选择FM的中间层:通常选择FM中具有代表性的几层,例如Transformer的多个Encoder层。2) 如何将FM的中间层嵌入与VM的输入特征进行融合:可以使用concat、sum pooling等方式。3) 如何训练VM:可以使用交叉熵损失函数等。4) 理论分析:论文提供了增益分解和传输率分析的理论框架,用于分析LoopFM的有效性。
🖼️ 关键图片
📊 实验亮点
LoopFM在三个公共基准测试中展示了强大的AUC改进,例如在淘宝广告上超过6%。在工业规模系统(数十亿个示例,万亿参数FM)上,LoopFM在KD的基础上大约使知识转移率翻倍,在Y1H1中实现了+0.5%的转化率提升,并且在Y1H2的两次独立发布中分别实现了+1.03%和+1.22%的转化率提升。这些结果表明LoopFM在实际应用中具有显著的优势。
🎯 应用场景
LoopFM可应用于各种推荐系统,尤其适用于拥有大型基础模型和需要快速部署的场景。例如,电商推荐、广告推荐、新闻推荐等。该方法可以显著提升推荐系统的性能,提高用户点击率和转化率,具有重要的商业价值。未来,LoopFM可以进一步扩展到其他领域,例如自然语言处理和计算机视觉。
📄 摘要(原文)
Knowledge distillation (KD) transfers a single scalar prediction from a large foundation model (FM) to compact vertical models (VMs), suffering from diminishing transfer ratio -- the fraction of FM improvement captured by the VM -- as a single scalar cannot convey the rich intermediate knowledge that larger FMs learn. To address this bottleneck, we propose LoopFM (Learning frOm HistOrical ReP*resentations of FM), a framework that opens a high-bandwidth transfer channel by structuring FM intermediate embeddings as input features (e.g., user history sequence) for downstream VMs, without requiring real-time FM inference at serving and architectural coupling between FM and VM. We provide a theoretical framework for LoopFM with a gain decomposition and transfer-ratio analysis. On three public benchmarks, LoopFM demonstrates strong AUC improvements (e.g., 6\%+ on TaobaoAd) and complementary knowledge transfer capability with KD. On industrial-scale systems (billions of examples, trillion-parameter FMs), LoopFM approximately doubles the knowledge transfer ratio on top of KD, delivering a +0.5\% conversion improvement in Y1H1, and a +1.03\% and +1.22\% conversion improvement from two individual launches respectively in Y1H2.