Leveraging Multimodal Data and Side Users for Diffusion Cross-Domain Recommendation

📄 arXiv: 2507.04000v1 📥 PDF

作者: Fan Zhang, Jinpeng Chen, Huan Li, Senzhang Wang, Yuan Cao, Kaimin Wei, JianXiang He, Feifei Kou, Jinqing Wang

分类: cs.IR, cs.AI

发布日期: 2025-07-05


💡 一句话要点

提出MuSiC模型,利用多模态数据和侧面用户解决跨域推荐中的冷启动问题。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 跨域推荐 冷启动问题 多模态学习 扩散模型 侧面用户 大语言模型 特征生成

📋 核心要点

  1. 现有跨域推荐方法未能充分利用多模态数据进行跨域对齐,且忽略了目标域中仅有交互的侧面用户,导致目标域向量空间分布学习不足。
  2. MuSiC模型利用多模态大语言模型提取项目和用户特征,并提出跨域扩散模块,通过侧面用户和重叠用户学习目标域特征生成和跨域转换模式。
  3. 在Amazon数据集上的实验表明,MuSiC模型取得了state-of-the-art的性能,显著优于其他基线模型,验证了其有效性。

📝 摘要(中文)

跨域推荐(CDR)旨在解决推荐系统中长期存在的冷启动问题。现有的CDR研究主要集中于将辅助域中冷启动用户的信息迁移到目标域。然而,这些系统面临两个主要问题:多模态数据的利用不足,阻碍了有效的跨域对齐;以及忽略了仅在目标域内交互的侧面用户,导致对目标域向量空间分布的学习不足。为了解决这些问题,我们提出了一种利用多模态数据和侧面用户进行扩散跨域推荐的模型(MuSiC)。我们首先采用多模态大型语言模型来提取项目多模态特征,并利用大型语言模型通过提示学习来发现用户特征,而无需微调。其次,我们提出了跨域扩散模块来学习目标域中特征向量的生成。这种方法包括从侧面用户学习特征分布,并通过重叠用户理解跨域转换的模式。随后,训练好的扩散模块用于为目标域中的冷启动用户生成特征向量,从而完成跨域推荐任务。最后,我们对Amazon数据集的实验评估证实,MuSiC实现了最先进的性能,显著优于所有选定的基线。

🔬 方法详解

问题定义:论文旨在解决跨域推荐中冷启动用户的推荐问题。现有方法的痛点在于,一方面,没有充分利用多模态数据进行跨域知识迁移;另一方面,忽略了目标域中仅有交互的侧面用户,导致无法充分学习目标域的特征分布。

核心思路:论文的核心思路是利用多模态信息增强用户和物品的表示,并利用扩散模型学习目标域的特征生成过程。通过侧面用户学习目标域的特征分布,并通过重叠用户学习跨域转换的模式,从而为冷启动用户生成更准确的特征向量。

技术框架:MuSiC模型的整体框架包含以下几个主要模块:1) 多模态特征提取模块:利用多模态大语言模型提取项目和用户的多模态特征。2) 跨域扩散模块:利用扩散模型学习目标域的特征生成过程,包括从侧面用户学习特征分布,并通过重叠用户学习跨域转换的模式。3) 推荐模块:利用生成的特征向量进行推荐。

关键创新:论文的关键创新在于:1) 提出了利用多模态大语言模型提取项目和用户特征的方法,能够更全面地表示用户和物品的信息。2) 提出了跨域扩散模块,能够有效地学习目标域的特征生成过程,并为冷启动用户生成更准确的特征向量。

关键设计:在多模态特征提取模块中,使用了预训练的多模态大语言模型,例如CLIP等。在跨域扩散模块中,使用了扩散模型,例如DDPM等。损失函数包括扩散模型的训练损失和推荐任务的损失。具体的网络结构和参数设置在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,MuSiC模型在Amazon数据集上取得了state-of-the-art的性能,显著优于所有选定的基线模型。具体的性能提升数据在论文中有详细展示,证明了该模型在跨域推荐任务中的有效性。

🎯 应用场景

该研究成果可应用于各种跨域推荐场景,例如,将用户在电商平台的购买行为迁移到电影推荐,或将用户在社交媒体上的兴趣迁移到新闻推荐。该方法能够有效缓解冷启动问题,提高推荐系统的准确性和用户体验,具有重要的实际应用价值和商业潜力。

📄 摘要(原文)

Cross-domain recommendation (CDR) aims to address the persistent cold-start problem in Recommender Systems. Current CDR research concentrates on transferring cold-start users' information from the auxiliary domain to the target domain. However, these systems face two main issues: the underutilization of multimodal data, which hinders effective cross-domain alignment, and the neglect of side users who interact solely within the target domain, leading to inadequate learning of the target domain's vector space distribution. To address these issues, we propose a model leveraging Multimodal data and Side users for diffusion Cross-domain recommendation (MuSiC). We first employ a multimodal large language model to extract item multimodal features and leverage a large language model to uncover user features using prompt learning without fine-tuning. Secondly, we propose the cross-domain diffusion module to learn the generation of feature vectors in the target domain. This approach involves learning feature distribution from side users and understanding the patterns in cross-domain transformation through overlapping users. Subsequently, the trained diffusion module is used to generate feature vectors for cold-start users in the target domain, enabling the completion of cross-domain recommendation tasks. Finally, our experimental evaluation of the Amazon dataset confirms that MuSiC achieves state-of-the-art performance, significantly outperforming all selected baselines. Our code is available: https://anonymous.4open.science/r/MuSiC-310A/.