Multi-modal Relational Item Representation Learning for Inferring Substitutable and Complementary Items

📄 arXiv: 2507.22268v2 📥 PDF

作者: Junting Wang, Chenghuan Guo, Jiao Yang, Yanhui Guo, Yan Gao, Hari Sundaram

分类: cs.IR, cs.AI

发布日期: 2025-07-29 (更新: 2025-07-31)


💡 一句话要点

提出MMSC框架,利用多模态关系学习推断可替代和互补商品,解决用户行为噪声和数据稀疏性问题。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 多模态学习 商品推荐 关系学习 自监督学习 数据增强 冷启动问题 用户行为建模

📋 核心要点

  1. 现有方法在推断可替代和互补商品时,忽略了用户行为数据中的噪声和长尾分布导致的数据稀疏性问题。
  2. MMSC框架通过多模态表示学习、自监督行为表示学习和分层表示聚合机制,有效应对了上述挑战。
  3. 实验结果表明,MMSC在可替代和互补推荐任务上显著优于现有方法,并在冷启动商品建模方面表现出色。

📝 摘要(中文)

本文提出了一种新颖的自监督多模态关系商品表示学习框架MMSC,旨在推断可替代和互补商品。现有方法主要侧重于使用图神经网络(GNN)建模从用户行为中推断出的商品-商品关联,或利用商品内容信息。然而,这些方法通常忽略了关键挑战,例如噪声用户行为数据以及由于这些行为的长尾分布导致的数据稀疏性。MMSC框架包含三个主要组成部分:(1)利用多模态基础模型并从商品元数据中学习的多模态商品表示学习模块,(2)对用户行为数据进行去噪并从中学习的自监督行为表示学习模块,以及(3)在语义和任务级别整合商品表示的分层表示聚合机制。此外,我们利用LLM生成增强的训练数据,进一步增强训练期间的去噪过程。在五个真实世界数据集上进行了大量实验,表明MMSC在可替代推荐方面优于现有基线26.1%,在互补推荐方面优于现有基线39.2%。此外,我们通过实验表明MMSC在建模冷启动商品方面是有效的。

🔬 方法详解

问题定义:论文旨在解决推荐系统中可替代和互补商品的推断问题。现有方法主要依赖用户行为数据或商品内容信息,但用户行为数据存在噪声和长尾分布导致的数据稀疏性问题,影响了推荐效果。

核心思路:论文的核心思路是利用多模态信息融合和自监督学习来缓解数据噪声和稀疏性问题。通过融合商品元数据和用户行为数据,学习更鲁棒的商品表示,并利用自监督学习增强模型的泛化能力。

技术框架:MMSC框架包含三个主要模块:1) 多模态商品表示学习模块,利用多模态基础模型学习商品元数据表示;2) 自监督行为表示学习模块,对用户行为数据进行去噪并学习行为表示;3) 分层表示聚合机制,在语义和任务级别整合商品表示。此外,使用LLM生成增强数据,提升去噪效果。

关键创新:MMSC的关键创新在于:1) 提出了一种多模态关系商品表示学习框架,有效融合了商品元数据和用户行为数据;2) 引入自监督学习机制,增强了模型对噪声数据的鲁棒性;3) 利用LLM生成增强数据,缓解了数据稀疏性问题。

关键设计:多模态商品表示学习模块使用预训练的多模态基础模型(具体模型未知)提取商品元数据的特征。自监督行为表示学习模块采用对比学习(具体方法未知)进行去噪和表示学习。分层表示聚合机制采用加权平均(具体权重计算方式未知)整合不同层次的商品表示。损失函数包括对比学习损失和推荐任务损失(具体形式未知)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,MMSC在五个真实数据集上显著优于现有基线方法。在可替代推荐任务上,MMSC的性能提升了26.1%;在互补推荐任务上,性能提升了39.2%。此外,实验还证明了MMSC在冷启动商品建模方面的有效性。

🎯 应用场景

该研究成果可应用于电商推荐系统,提升可替代和互补商品的推荐准确率,改善用户购物体验,增加平台销售额。此外,该方法也可推广到其他推荐场景,如社交媒体内容推荐、在线教育课程推荐等。

📄 摘要(原文)

We introduce a novel self-supervised multi-modal relational item representation learning framework designed to infer substitutable and complementary items. Existing approaches primarily focus on modeling item-item associations deduced from user behaviors using graph neural networks (GNNs) or leveraging item content information. However, these methods often overlook critical challenges, such as noisy user behavior data and data sparsity due to the long-tailed distribution of these behaviors. In this paper, we propose MMSC, a self-supervised multi-modal relational item representation learning framework to address these challenges. Specifically, MMSC consists of three main components: (1) a multi-modal item representation learning module that leverages a multi-modal foundational model and learns from item metadata, (2) a self-supervised behavior-based representation learning module that denoises and learns from user behavior data, and (3) a hierarchical representation aggregation mechanism that integrates item representations at both the semantic and task levels. Additionally, we leverage LLMs to generate augmented training data, further enhancing the denoising process during training. We conduct extensive experiments on five real-world datasets, showing that MMSC outperforms existing baselines by 26.1% for substitutable recommendation and 39.2% for complementary recommendation. In addition, we empirically show that MMSC is effective in modeling cold-start items.