Distillation-based Scenario-Adaptive Mixture-of-Experts for the Matching Stage of Multi-scenario Recommendation

📄 arXiv: 2601.02368v1 📥 PDF

作者: Ruibing Wang, Shuhan Guo, Haotong Du, Quanming Yao

分类: cs.IR, cs.AI

发布日期: 2025-11-28


💡 一句话要点

提出基于蒸馏的场景自适应混合专家模型DSMOE,提升多场景推荐匹配效果。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 多场景推荐 混合专家模型 知识蒸馏 场景自适应 长尾问题

📋 核心要点

  1. 多场景推荐中,现有MMOE模型在匹配阶段存在双塔结构盲优化和头部场景参数主导问题。
  2. DSMOE通过场景自适应投影模块和跨架构知识蒸馏框架,解决长尾场景专家崩塌和匹配模式学习问题。
  3. 实验表明,DSMOE显著提升了数据稀疏场景的检索质量,验证了其优越性。

📝 摘要(中文)

多场景推荐对于优化不同上下文中的用户体验至关重要。多门控混合专家模型(MMOE)在排序阶段表现出色,但由于独立双塔结构的盲优化以及头部场景的参数主导,其在匹配阶段的应用受到限制。为了解决这些结构和分布瓶颈,我们提出了基于蒸馏的场景自适应混合专家模型(DSMOE)。具体来说,我们设计了一个场景自适应投影(SAP)模块,以生成轻量级的、特定于上下文的参数,有效防止长尾场景中的专家崩塌。同时,我们引入了一个跨架构的知识蒸馏框架,其中交互感知的教师模型指导双塔学生模型捕获复杂的匹配模式。在真实数据集上的大量实验表明了DSMOE的优越性,尤其是在显著提高数据稀疏的、代表性不足的场景的检索质量方面。

🔬 方法详解

问题定义:多场景推荐旨在为不同场景下的用户提供个性化推荐。现有的MMOE模型在排序阶段表现良好,但直接应用于匹配阶段时,由于双塔结构的独立优化,忽略了场景间的交互信息,导致模型优化方向不一致。此外,头部场景的数据量远大于长尾场景,使得模型参数容易被头部场景主导,导致长尾场景的推荐效果不佳。

核心思路:DSMOE的核心思路是通过场景自适应的参数生成和知识蒸馏,解决双塔结构的盲优化和长尾场景的参数主导问题。场景自适应投影模块(SAP)为每个场景生成特定的参数,缓解长尾场景的专家崩塌问题。跨架构知识蒸馏框架利用交互感知的教师模型指导双塔学生模型,学习更丰富的匹配模式。

技术框架:DSMOE的整体框架包含两个主要部分:场景自适应混合专家网络和跨架构知识蒸馏。场景自适应混合专家网络由一个共享的底层双塔结构和多个场景特定的专家网络组成。SAP模块根据场景信息动态生成专家网络的参数。跨架构知识蒸馏框架使用一个交互感知的教师模型(例如,基于Transformer的模型)来指导双塔学生模型的训练。

关键创新:DSMOE的关键创新在于:1) 提出了场景自适应投影(SAP)模块,能够根据场景信息动态生成专家网络的参数,有效缓解长尾场景的专家崩塌问题。2) 引入了跨架构知识蒸馏框架,利用交互感知的教师模型指导双塔学生模型,学习更丰富的匹配模式。与传统的MMOE模型相比,DSMOE能够更好地适应不同场景的特点,提高推荐效果。

关键设计:SAP模块使用一个小型神经网络,以场景embedding作为输入,生成专家网络的权重和偏置。知识蒸馏框架使用KL散度损失函数来衡量教师模型和学生模型输出分布的差异。教师模型可以使用更复杂的结构(例如,Transformer),以捕获更丰富的交互信息。学生模型使用双塔结构,以保证检索效率。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,DSMOE在多个真实数据集上显著优于现有的多场景推荐模型。尤其是在数据稀疏的长尾场景中,DSMOE的检索质量提升尤为明显。例如,在某个数据集上,DSMOE相比于MMOE模型,长尾场景的召回率提升了10%以上,证明了其在解决长尾问题方面的有效性。

🎯 应用场景

DSMOE适用于各种需要多场景推荐的领域,例如电商、新闻推荐、视频推荐等。它可以根据用户的不同场景(例如,购物场景、阅读场景、观看场景)提供个性化的推荐服务,提高用户满意度和平台收益。该研究对于解决推荐系统中的长尾问题具有重要的实际价值,并为未来的多场景推荐研究提供了新的思路。

📄 摘要(原文)

Multi-scenario recommendation is pivotal for optimizing user experience across diverse contexts. While Multi-gate Mixture-of-Experts (MMOE) thrives in ranking, its transfer to the matching stage is hindered by the blind optimization inherent to independent two-tower architectures and the parameter dominance of head scenarios. To address these structural and distributional bottlenecks, we propose Distillation-based Scenario-Adaptive Mixture-of-Experts (DSMOE). Specially, we devise a Scenario-Adaptive Projection (SAP) module to generate lightweight, context-specific parameters, effectively preventing expert collapse in long-tail scenarios. Concurrently, we introduce a cross-architecture knowledge distillation framework, where an interaction-aware teacher guides the two-tower student to capture complex matching patterns. Extensive experiments on real-world datasets demonstrate DSMOE's superiority, particularly in significantly improving retrieval quality for under-represented, data-sparse scenarios.