A Multimodal Single-Branch Embedding Network for Recommendation in Cold-Start and Missing Modality Scenarios

📄 arXiv: 2409.17864v1 📥 PDF

作者: Christian Ganhör, Marta Moscati, Anna Hausberger, Shah Nawaz, Markus Schedl

分类: cs.IR, cs.AI, cs.LG, cs.MM

发布日期: 2024-09-26

备注: Accepted at 18th ACM Conference on Recommender Systems (RecSys '24)

DOI: 10.1145/3640457.3688009


💡 一句话要点

提出SiBraR单分支嵌入网络,解决推荐系统中冷启动和模态缺失问题。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 推荐系统 冷启动 多模态学习 单分支网络 嵌入网络

📋 核心要点

  1. 协同过滤在冷启动场景下表现不佳,现有方法依赖协同数据和辅助信息,但模态缺失问题仍然存在。
  2. SiBraR采用单分支嵌入网络,通过权重共享对不同模态的交互数据和辅助信息进行编码。
  3. 实验表明,SiBraR在冷启动和模态缺失场景下优于传统方法,并在warm场景下具有竞争力。

📝 摘要(中文)

大多数推荐系统采用协同过滤(CF),并基于过去的集体交互提供推荐。因此,当交互数据很少或没有时,CF算法的性能会下降,这种情况称为冷启动。为了解决这个问题,之前的工作依赖于利用协同数据和用户或物品的辅助信息的模型。与多模态学习类似,这些模型旨在将协同表示和内容表示结合在共享的嵌入空间中。本文提出了一种新的多模态推荐技术,依赖于用于推荐的多模态单分支嵌入网络(SiBraR)。SiBraR利用权重共享,在不同的模态上使用相同的单分支嵌入网络对交互数据和多模态辅助信息进行编码。这使得SiBraR在包括冷启动在内的模态缺失场景中非常有效。我们在来自三个不同推荐领域(音乐、电影和电子商务)的大规模推荐数据集上进行了广泛的实验,并提供了多模态内容信息(音频、文本、图像、标签和交互),结果表明,SiBraR在冷启动场景中显著优于CF以及最先进的基于内容的推荐系统,并且在warm场景中具有竞争力。我们证明了SiBraR的推荐在模态缺失场景中是准确的,并且该模型能够将不同的模态映射到共享嵌入空间的同一区域,从而减少模态差距。

🔬 方法详解

问题定义:论文旨在解决推荐系统中冷启动和模态缺失的问题。传统的协同过滤方法在用户或物品交互数据稀疏时性能显著下降。现有的多模态推荐方法虽然利用了辅助信息,但在某些模态缺失的情况下,性能也会受到影响。因此,如何有效地利用多模态信息,并在模态缺失的情况下保持推荐的准确性是一个挑战。

核心思路:论文的核心思路是利用单分支嵌入网络(SiBraR)对不同模态的信息进行统一编码。通过权重共享机制,SiBraR能够将不同模态的数据映射到同一个嵌入空间,从而减少模态之间的差距。这种设计使得模型在模态缺失的情况下,仍然可以利用其他模态的信息进行推荐。

技术框架:SiBraR的整体框架包括以下几个主要步骤:1) 数据预处理:对不同模态的数据进行清洗和转换,例如文本数据的词嵌入、图像数据的特征提取等。2) 单分支嵌入网络:使用相同的网络结构对不同模态的数据进行编码,生成对应的嵌入向量。3) 交互建模:利用用户和物品的嵌入向量,预测用户对物品的偏好。4) 损失函数优化:通过优化损失函数,使得模型能够更好地学习用户和物品的表示。

关键创新:SiBraR的关键创新在于使用单分支嵌入网络和权重共享机制。传统的模型通常为每个模态设计独立的嵌入网络,导致参数量大,且难以处理模态缺失的情况。SiBraR通过共享权重,减少了参数量,并使得模型能够更好地泛化到模态缺失的场景。

关键设计:SiBraR的关键设计包括:1) 嵌入网络的结构:可以选择不同的网络结构,例如多层感知机(MLP)或卷积神经网络(CNN),具体取决于数据的特点。2) 损失函数:可以使用不同的损失函数,例如BPR损失或交叉熵损失,用于优化模型的性能。3) 权重共享策略:可以采用不同的权重共享策略,例如完全共享或部分共享,以平衡模型的表达能力和泛化能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,SiBraR在冷启动场景下显著优于协同过滤和基于内容的推荐系统。在音乐、电影和电商三个领域的数据集上,SiBraR的性能均有提升,尤其是在模态缺失的情况下,仍然能够保持较高的推荐准确率。具体性能提升数据未知,但原文强调了显著优于现有方法。

🎯 应用场景

该研究成果可应用于多种推荐场景,如音乐、电影、电商等。尤其在冷启动用户或新上架商品的情况下,能够有效提升推荐质量。此外,该方法在医疗、教育等领域也具有潜在应用价值,例如,可以根据患者的病历信息和影像数据,推荐合适的治疗方案。

📄 摘要(原文)

Most recommender systems adopt collaborative filtering (CF) and provide recommendations based on past collective interactions. Therefore, the performance of CF algorithms degrades when few or no interactions are available, a scenario referred to as cold-start. To address this issue, previous work relies on models leveraging both collaborative data and side information on the users or items. Similar to multimodal learning, these models aim at combining collaborative and content representations in a shared embedding space. In this work we propose a novel technique for multimodal recommendation, relying on a multimodal Single-Branch embedding network for Recommendation (SiBraR). Leveraging weight-sharing, SiBraR encodes interaction data as well as multimodal side information using the same single-branch embedding network on different modalities. This makes SiBraR effective in scenarios of missing modality, including cold start. Our extensive experiments on large-scale recommendation datasets from three different recommendation domains (music, movie, and e-commerce) and providing multimodal content information (audio, text, image, labels, and interactions) show that SiBraR significantly outperforms CF as well as state-of-the-art content-based RSs in cold-start scenarios, and is competitive in warm scenarios. We show that SiBraR's recommendations are accurate in missing modality scenarios, and that the model is able to map different modalities to the same region of the shared embedding space, hence reducing the modality gap.