ID and Graph View Contrastive Learning with Multi-View Attention Fusion for Sequential Recommendation
作者: Xiaofan Zhou, Kyumin Lee
分类: cs.IR, cs.LG
发布日期: 2026-04-15
🔗 代码/项目: GITHUB
💡 一句话要点
提出MVCrec,通过ID和图视角对比学习及多视角注意力融合提升序列推荐性能。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 序列推荐 对比学习 图神经网络 多视角学习 注意力机制 用户行为预测 推荐系统
📋 核心要点
- 现有序列推荐方法缺乏对ID和图视角信息的有效融合,限制了用户和物品表示的学习。
- MVCrec通过多视角对比学习,在ID和图视角内及跨视角进行对比,学习互补的用户和物品表示。
- 实验结果表明,MVCrec在多个数据集上显著优于现有方法,NDCG@10和HitRatio@10指标均有提升。
📝 摘要(中文)
序列推荐在学术界和工业界,尤其是在电子商务领域,变得越来越重要。其主要目标是从历史交互序列中提取用户偏好,并预测用户接下来可能交互的物品。最近的研究利用对比学习和图神经网络从交互历史中学习更具表达性的表示——图捕获节点之间的关系结构,而基于ID的表示编码特定于物品的信息。然而,很少有研究探索ID和图视角之间的多视角对比学习,以共同改进用户和物品的表示,尤其是在只有交互数据而没有辅助信息的设置中。为了解决这个差距,我们提出了用于序列推荐的多视角对比学习(MVCrec),该框架集成了来自序列(基于ID)和基于图的视角的互补信号。MVCrec包含三个对比目标:序列视角内、图视角内以及跨视角。为了有效地融合学习到的表示,我们引入了一个多视角注意力融合模块,该模块结合了全局和局部注意力机制,以估计目标用户购买目标物品的可能性。在五个真实世界基准数据集上的综合实验表明,MVCrec始终优于11个最先进的基线,在NDCG@10上实现了高达14.44%的改进,在HitRatio@10上实现了9.22%的改进。
🔬 方法详解
问题定义:序列推荐旨在根据用户的历史交互序列预测其未来可能交互的物品。现有方法通常只关注ID信息或图结构信息,缺乏对两者的有效融合,导致用户和物品的表示学习不充分。尤其是在缺乏辅助信息的情况下,如何利用交互数据本身进行多视角学习是一个挑战。
核心思路:MVCrec的核心思路是利用对比学习,分别在ID视角(序列视角)和图视角学习用户和物品的表示,并通过跨视角对比学习,使得两个视角的表示能够相互补充。通过多视角注意力融合模块,将学习到的表示进行有效融合,从而更准确地预测用户的行为。
技术框架:MVCrec框架主要包含以下几个模块:1) 序列编码器:用于编码用户的历史交互序列,得到基于ID的表示。2) 图编码器:利用图神经网络编码用户和物品之间的交互图,得到基于图结构的表示。3) 对比学习模块:包含三个对比目标,即序列视角内对比、图视角内对比和跨视角对比。4) 多视角注意力融合模块:利用全局和局部注意力机制,融合不同视角的表示,预测用户购买物品的概率。
关键创新:MVCrec的关键创新在于提出了多视角对比学习框架,能够有效地融合ID和图视角的信息。通过跨视角对比学习,使得不同视角的表示能够相互补充,从而学习到更鲁棒和更具表达性的用户和物品表示。多视角注意力融合模块能够自适应地学习不同视角的重要性,从而更准确地进行预测。
关键设计:在对比学习中,使用了InfoNCE损失函数,用于最大化正样本之间的相似度,最小化负样本之间的相似度。多视角注意力融合模块中,全局注意力用于学习不同视角的重要性,局部注意力用于学习不同时间步的重要性。具体的网络结构和参数设置在论文中有详细描述,但未在此处明确给出。
🖼️ 关键图片
📊 实验亮点
MVCrec在五个真实世界基准数据集上进行了评估,实验结果表明,MVCrec始终优于11个最先进的基线方法。在NDCG@10指标上,MVCrec取得了高达14.44%的改进;在HitRatio@10指标上,MVCrec取得了高达9.22%的改进。这些结果表明,MVCrec能够有效地提升序列推荐的性能。
🎯 应用场景
MVCrec可应用于各种序列推荐场景,例如电商推荐、视频推荐、音乐推荐等。通过更准确地预测用户的兴趣,可以提高推荐系统的点击率、转化率和用户满意度。该研究对于提升推荐系统的性能和用户体验具有重要的实际价值,并为未来的序列推荐研究提供了新的思路。
📄 摘要(原文)
Sequential recommendation has become increasingly prominent in both academia and industry, particularly in e-commerce. The primary goal is to extract user preferences from historical interaction sequences and predict items a user is likely to engage with next. Recent advances have leveraged contrastive learning and graph neural networks to learn more expressive representations from interaction histories -- graphs capture relational structure between nodes, while ID-based representations encode item-specific information. However, few studies have explored multi-view contrastive learning between ID and graph perspectives to jointly improve user and item representations, especially in settings where only interaction data is available without auxiliary information. To address this gap, we propose Multi-View Contrastive learning for sequential recommendation (MVCrec), a framework that integrates complementary signals from both sequential (ID-based) and graph-based views. MVCrec incorporates three contrastive objectives: within the sequential view, within the graph view, and across views. To effectively fuse the learned representations, we introduce a multi-view attention fusion module that combines global and local attention mechanisms to estimate the likelihood of a target user purchasing a target item. Comprehensive experiments on five real-world benchmark datasets demonstrate that MVCrec consistently outperforms 11 state-of-the-art baselines, achieving improvements of up to 14.44\% in NDCG@10 and 9.22\% in HitRatio@10 over the strongest baseline. Our code and datasets are available at https://github.com/sword-Lz/MMCrec.