Sequences as Nodes for Contrastive Multimodal Graph Recommendation

作者: Bucher Sahyouni, Matthew Vowels, Liqun Chen, Simon Hadfield

分类: cs.IR, cs.AI

发布日期: 2026-02-06

💡 一句话要点

提出MuSICRec，通过多模态对比图推荐缓解冷启动和数据稀疏问题。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 推荐系统 多模态学习 图神经网络 序列推荐 对比学习 冷启动问题 数据稀疏性

📋 核心要点

现有推荐方法在处理冷启动和数据稀疏性问题时，引入的多模态信息可能带来噪声，干扰有效语义。
MuSICRec构建序列-项目图，通过图传播获得多视角表示，并利用ID引导的门控机制抑制模态噪声。
在Amazon数据集上的实验表明，MuSICRec显著优于现有方法，尤其在短历史用户上效果提升明显。

📝 摘要（中文）

为了解决推荐系统中的冷启动和数据稀疏问题，已经提出了许多多模态、序列化和对比学习技术。虽然这些增强方法可以提高推荐性能，但它们往往会增加噪声并破坏有用的语义信息。为了解决这个问题，我们提出了MuSICRec（多模态序列-项目对比推荐器），这是一种基于多视角图的推荐方法，它结合了协同、序列和多模态信号。我们通过对用户交互过的项目进行注意力池化来构建序列-项目（SI）视图，从而形成序列节点。我们在SI图上传播，有机地获得第二个视图，作为人工数据增强的替代方案，同时注入序列上下文信号。此外，为了减轻模态噪声并对齐多模态信息，文本和视觉特征的贡献根据ID引导的门控进行调节。我们采用严格的留二法进行评估，并与广泛的序列、多模态和对比学习基线进行比较。在Amazon Baby、Sports和Electronics数据集上，MuSICRec优于所有模型类型的最先进基线。我们观察到短历史用户的增益最大，从而缓解了稀疏性和冷启动挑战。我们的代码可在https://anonymous.4open.science/r/MuSICRec-3CEE/获得，并将公开发布。

🔬 方法详解

问题定义：论文旨在解决推荐系统中普遍存在的冷启动和数据稀疏性问题。现有方法虽然尝试利用多模态信息、序列信息和对比学习来增强推荐效果，但往往会引入噪声，破坏原有数据的语义结构，导致性能提升有限甚至下降。

核心思路：论文的核心思路是将用户的交互序列建模成图结构中的节点，通过图神经网络进行信息传播，从而同时利用协同信息和序列信息。此外，通过对比学习的方式，学习不同模态信息之间的关联，并使用ID引导的门控机制来抑制噪声模态的影响。

技术框架：MuSICRec包含以下主要模块：1) 序列-项目图构建模块：将用户的交互序列通过注意力池化形成序列节点，与项目节点共同构成序列-项目图。2) 图神经网络传播模块：在序列-项目图上进行多层图神经网络传播，学习节点表示。3) 多模态融合模块：利用ID引导的门控机制，动态调整文本和视觉特征的贡献，缓解模态噪声。4) 对比学习模块：通过对比学习，对齐不同模态的信息，增强模型鲁棒性。

关键创新：论文的关键创新在于：1) 将用户交互序列建模成图节点，有机地融合了协同信息和序列信息。2) 提出了ID引导的门控机制，能够有效地抑制噪声模态的影响，提升多模态融合的效果。3) 通过图传播获得多视角表示，作为一种替代人工数据增强的方式。

关键设计：序列-项目图使用GCN进行信息传播；注意力池化采用可学习的权重；ID引导的门控机制使用sigmoid函数控制文本和视觉特征的权重；对比学习采用InfoNCE损失函数。

🖼️ 关键图片

📊 实验亮点

MuSICRec在Amazon Baby、Sports和Electronics数据集上进行了评估，显著优于现有的序列推荐、多模态推荐和对比学习推荐方法。尤其是在短历史用户上，MuSICRec的性能提升最为明显，表明其有效缓解了冷启动问题。例如，在Amazon Baby数据集上，MuSICRec相比最佳基线提升了超过5%。

🎯 应用场景

该研究成果可应用于电商推荐、视频推荐、音乐推荐等领域，尤其适用于用户行为数据稀疏或存在冷启动问题的场景。通过有效融合多模态信息和序列信息，可以提升推荐系统的准确性和用户体验，帮助平台更好地理解用户兴趣，实现个性化推荐。

📄 摘要（原文）

To tackle cold-start and data sparsity issues in recommender systems, numerous multimodal, sequential, and contrastive techniques have been proposed. While these augmentations can boost recommendation performance, they tend to add noise and disrupt useful semantics. To address this, we propose MuSICRec (Multimodal Sequence-Item Contrastive Recommender), a multi-view graph-based recommender that combines collaborative, sequential, and multimodal signals. We build a sequence-item (SI) view by attention pooling over the user's interacted items to form sequence nodes. We propagate over the SI graph, obtaining a second view organically as an alternative to artificial data augmentation, while simultaneously injecting sequential context signals. Additionally, to mitigate modality noise and align the multimodal information, the contribution of text and visual features is modulated according to an ID-guided gate. We evaluate under a strict leave-two-out split against a broad range of sequential, multimodal, and contrastive baselines. On the Amazon Baby, Sports, and Electronics datasets, MuSICRec outperforms state-of-the-art baselines across all model types. We observe the largest gains for short-history users, mitigating sparsity and cold-start challenges. Our code is available at https://anonymous.4open.science/r/MuSICRec-3CEE/ and will be made publicly available.

Sequences as Nodes for Contrastive Multimodal Graph Recommendation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理