Unifying Inductive, Cross-Domain, and Multimodal Learning for Robust and Generalizable Recommendation

📄 arXiv: 2510.21812v1 📥 PDF

作者: Chanyoung Chung, Kyeongryul Lee, Sunbin Park, Joyce Jiyoung Whang

分类: cs.IR, cs.AI, cs.LG

发布日期: 2025-10-21

备注: 7 pages, 3 figures, and 4 tables. International Workshop on Multimodal Generative Search and Recommendation (MMGenSR) at The 34th ACM International Conference on Information and Knowledge Management (CIKM 2025)


💡 一句话要点

MICRec:融合归纳、跨域和多模态学习的鲁棒通用推荐框架

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 推荐系统 跨域学习 多模态学习 归纳学习 数据稀疏性

📋 核心要点

  1. 现有推荐方法难以应对跨域、数据稀疏和多模态信息融合的复杂场景。
  2. MICRec通过融合归纳建模、多模态指导和跨域迁移,提升推荐系统的鲁棒性和泛化能力。
  3. 实验结果表明,MICRec在多个数据集上显著优于现有基线方法,尤其在数据稀疏领域。

📝 摘要(中文)

推荐系统长期以来都建立在用户和物品之间交互建模的基础上。最近的研究试图通过推广到新用户和物品、整合多样化的信息来源以及跨域迁移知识来扩展这一范式。然而,这些努力主要集中在各个方面,阻碍了它们解决在不同领域日常消费中出现的复杂推荐场景的能力。本文提出了MICRec,一个统一的框架,它融合了归纳建模、多模态指导和跨域迁移,以捕捉异构和不完整的真实世界数据中的用户上下文和潜在偏好。我们的模型超越了INMO的归纳主干,通过基于模态的聚合来改进表达性表示,并通过利用重叠用户作为跨域的锚点来缓解数据稀疏性,从而实现鲁棒和通用的推荐。实验表明,MICRec优于12个基线模型,在训练数据有限的领域中获得了显著的提升。

🔬 方法详解

问题定义:论文旨在解决传统推荐系统在处理真实世界复杂场景时面临的挑战,包括新用户/物品的冷启动问题(归纳学习),不同领域知识的迁移问题(跨域学习),以及如何有效利用多模态信息的问题。现有方法通常只关注这些问题中的一个方面,无法提供一个统一的解决方案。

核心思路:MICRec的核心思路是将归纳建模、多模态指导和跨域迁移三种技术融合到一个统一的框架中。通过归纳建模来处理冷启动问题,利用多模态信息来丰富用户和物品的表示,并通过跨域迁移来缓解数据稀疏性问题。该方法的核心在于利用不同领域中重叠的用户作为锚点,从而实现知识的有效迁移。

技术框架:MICRec的整体框架包含三个主要模块:1) 归纳建模模块,用于学习用户和物品的初始表示;2) 多模态融合模块,用于整合来自不同模态的信息,例如文本、图像等,以增强用户和物品的表示;3) 跨域迁移模块,用于将知识从源域迁移到目标域,从而缓解数据稀疏性问题。这三个模块协同工作,共同提升推荐系统的性能。

关键创新:MICRec的关键创新在于提出了一个统一的框架,能够同时处理归纳学习、跨域学习和多模态学习。与现有方法相比,MICRec能够更全面地利用异构和不完整的真实世界数据,从而实现更鲁棒和通用的推荐。此外,利用重叠用户作为锚点进行跨域迁移也是一个重要的创新点。

关键设计:在多模态融合模块中,论文可能采用了注意力机制或者其他聚合方法来整合不同模态的信息。在跨域迁移模块中,损失函数的设计可能考虑了源域和目标域之间的相似性,以确保知识迁移的有效性。具体的网络结构和参数设置在论文中应该有详细的描述,但摘要中没有明确指出。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MICRec在多个数据集上进行了实验,并与12个基线模型进行了比较。实验结果表明,MICRec在所有数据集上都取得了显著的提升,尤其是在训练数据有限的领域。具体的性能提升幅度在摘要中没有给出,需要在论文中查找。

🎯 应用场景

MICRec可应用于各种推荐场景,例如电商、在线视频、音乐推荐等。它能够有效解决冷启动问题,提升推荐系统的准确性和用户满意度。该研究的未来影响在于推动推荐系统向更通用、更智能的方向发展,从而更好地满足用户在不同领域的个性化需求。

📄 摘要(原文)

Recommender systems have long been built upon the modeling of interactions between users and items, while recent studies have sought to broaden this paradigm by generalizing to new users and items, incorporating diverse information sources, and transferring knowledge across domains. Nevertheless, these efforts have largely focused on individual aspects, hindering their ability to tackle the complex recommendation scenarios that arise in daily consumptions across diverse domains. In this paper, we present MICRec, a unified framework that fuses inductive modeling, multimodal guidance, and cross-domain transfer to capture user contexts and latent preferences in heterogeneous and incomplete real-world data. Moving beyond the inductive backbone of INMO, our model refines expressive representations through modality-based aggregation and alleviates data sparsity by leveraging overlapping users as anchors across domains, thereby enabling robust and generalizable recommendation. Experiments show that MICRec outperforms 12 baselines, with notable gains in domains with limited training data.