Hierarchical Time-Aware Mixture of Experts for Multi-Modal Sequential Recommendation
作者: Shengzhe Zhang, Liyi Chen, Dazhong Shen, Chao Wang, Hui Xiong
分类: cs.IR, cs.AI
发布日期: 2025-01-24 (更新: 2025-01-30)
备注: Accepted to WWW 2025
💡 一句话要点
提出HM4SR模型,通过分层时间感知专家混合网络解决多模态序列推荐中冗余信息干扰和动态兴趣建模问题。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态序列推荐 专家混合网络 时间感知 动态兴趣建模 多任务学习
📋 核心要点
- 现有方法在多模态序列推荐中忽略了冗余信息的干扰,且主要依赖隐式时间信息,无法有效捕捉用户动态兴趣。
- HM4SR模型通过分层MoE结构,分别提取用户兴趣相关信息和建模用户动态兴趣,并结合多任务学习策略。
- 在四个公共数据集上的实验表明,HM4SR模型优于现有最先进的方法,验证了其有效性。
📝 摘要(中文)
多模态序列推荐(SR)利用多模态数据学习更全面的项目特征和用户偏好,已成为学术界和工业界的关键课题。现有方法通常侧重于通过自适应模态融合来增强多模态信息的效用,以捕捉用户-项目交互序列中用户偏好的演变。然而,它们大多忽略了丰富的多模态数据中包含的冗余的、与兴趣无关的信息所造成的干扰。此外,它们主要依赖于仅基于时间顺序的隐式时间信息,而忽略了可以更有效地表示随时间变化的动态用户兴趣的显式时间信号。为了解决这些局限性,我们提出了一种分层时间感知专家混合网络用于多模态序列推荐(HM4SR),它具有一个两级专家混合网络(MoE)和一个多任务学习策略。具体来说,第一个MoE,称为交互式MoE,从每个项目的多模态数据中提取重要的用户兴趣相关信息。然后,第二个MoE,称为时间MoE,通过在模态编码中引入来自时间戳的显式时间嵌入来捕获用户动态兴趣。为了进一步解决数据稀疏性问题,我们提出了三个辅助监督任务:用于项目特征理解的序列级类别预测(CP),用于将序列上下文与用户兴趣对齐的ID对比学习(IDCL),以及用于将时间信息与模态集成以进行动态兴趣建模的占位符对比学习(PCL)。在四个公共数据集上的大量实验验证了HM4SR相对于几种最先进方法的有效性。
🔬 方法详解
问题定义:现有方法在多模态序列推荐中,无法有效区分多模态数据中与用户兴趣相关和无关的信息,导致推荐效果下降。同时,现有方法主要依赖于隐式的时间信息(例如序列顺序),忽略了显式时间信号,难以准确捕捉用户随时间变化的动态兴趣。
核心思路:HM4SR的核心思路是利用分层的专家混合网络(MoE)来分别处理多模态数据的兴趣提取和时间信息的动态建模。通过交互式MoE过滤冗余信息,提取关键的用户兴趣相关信息;通过时间MoE引入显式时间嵌入,捕捉用户动态兴趣。此外,通过多任务学习策略,利用辅助任务缓解数据稀疏性问题,提升模型泛化能力。
技术框架:HM4SR模型主要包含以下几个模块:1) 多模态数据编码:对每个项目的多模态数据(例如图像、文本)进行编码,得到多模态特征表示。2) 交互式MoE:从多模态特征中提取与用户兴趣相关的信息。3) 时间MoE:结合显式时间嵌入,建模用户动态兴趣。4) 序列建模:利用Transformer等序列模型,对用户交互序列进行建模,得到用户偏好表示。5) 预测层:基于用户偏好表示,预测用户下一个可能交互的项目。6) 多任务学习:引入序列级类别预测(CP)、ID对比学习(IDCL)和占位符对比学习(PCL)三个辅助任务,提升模型性能。
关键创新:HM4SR的关键创新在于:1) 分层MoE结构:通过交互式MoE和时间MoE,分别处理多模态数据的兴趣提取和时间信息的动态建模,有效过滤冗余信息,提升模型性能。2) 显式时间建模:引入显式时间嵌入,更准确地捕捉用户随时间变化的动态兴趣。3) 多任务学习策略:通过引入辅助任务,缓解数据稀疏性问题,提升模型泛化能力。
关键设计:1) 交互式MoE:使用多个专家网络,每个专家网络学习不同的模态组合方式,通过门控网络选择合适的专家网络。2) 时间MoE:将时间戳转换为时间嵌入,并将其与模态特征进行融合,输入到专家网络中。3) 损失函数:采用多任务学习的损失函数,包括主任务的交叉熵损失和辅助任务的对比学习损失等。4) 网络结构:序列建模部分可以使用Transformer、GRU等不同的网络结构。
🖼️ 关键图片
📊 实验亮点
在四个公共数据集上的实验结果表明,HM4SR模型显著优于现有的state-of-the-art方法。例如,在某个数据集上,HM4SR模型的Recall@20指标提升了5%以上,NDCG@20指标提升了3%以上。这些结果验证了HM4SR模型在多模态序列推荐任务中的有效性。
🎯 应用场景
HM4SR模型可应用于电商推荐、视频推荐、音乐推荐等领域。通过有效利用多模态数据和时间信息,能够更准确地捕捉用户兴趣,提升推荐系统的个性化程度和用户满意度。该研究对于提升多模态序列推荐系统的性能具有重要意义,并为未来的研究提供了新的思路。
📄 摘要(原文)
Multi-modal sequential recommendation (SR) leverages multi-modal data to learn more comprehensive item features and user preferences than traditional SR methods, which has become a critical topic in both academia and industry. Existing methods typically focus on enhancing multi-modal information utility through adaptive modality fusion to capture the evolving of user preference from user-item interaction sequences. However, most of them overlook the interference caused by redundant interest-irrelevant information contained in rich multi-modal data. Additionally, they primarily rely on implicit temporal information based solely on chronological ordering, neglecting explicit temporal signals that could more effectively represent dynamic user interest over time. To address these limitations, we propose a Hierarchical time-aware Mixture of experts for multi-modal Sequential Recommendation (HM4SR) with a two-level Mixture of Experts (MoE) and a multi-task learning strategy. Specifically, the first MoE, named Interactive MoE, extracts essential user interest-related information from the multi-modal data of each item. Then, the second MoE, termed Temporal MoE, captures user dynamic interests by introducing explicit temporal embeddings from timestamps in modality encoding. To further address data sparsity, we propose three auxiliary supervision tasks: sequence-level category prediction (CP) for item feature understanding, contrastive learning on ID (IDCL) to align sequence context with user interests, and placeholder contrastive learning (PCL) to integrate temporal information with modalities for dynamic interest modeling. Extensive experiments on four public datasets verify the effectiveness of HM4SR compared to several state-of-the-art approaches.