Multimodal Quantitative Language for Generative Recommendation

📄 arXiv: 2504.05314v1 📥 PDF

作者: Jianyang Zhai, Zi-Feng Mai, Chang-Dong Wang, Feidiao Yang, Xiawu Zheng, Hui Li, Yonghong Tian

分类: cs.IR, cs.AI, cs.CL

发布日期: 2025-02-20


💡 一句话要点

提出MQL4GRec,通过多模态量化语言实现生成式推荐的知识迁移。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 生成式推荐 多模态学习 知识迁移 预训练语言模型 量化语言

📋 核心要点

  1. 现有生成式推荐方法依赖预训练语言模型,但通用语言知识与推荐系统需求存在差异,且忽略了多模态信息的互补性。
  2. MQL4GRec将不同领域和模态的商品转化为统一的量化语言,作为知识迁移的桥梁,从而促进高效的推荐知识迁移。
  3. 实验结果表明,MQL4GRec在三个数据集上相比基线方法,NDCG指标分别提升了11.18%、14.82%和7.95%,验证了其有效性。

📝 摘要(中文)

生成式推荐是一种有前景的范式,旨在直接生成目标候选商品的标识符。现有方法主要利用预训练语言模型(PLM)中的先验知识来提升推荐性能,但它们通常无法适应PLM的通用语言知识与推荐系统的特定需求之间的差异,并且很少考虑商品多模态信息之间的互补知识,而这些信息代表了用户多方面的偏好。为了促进高效的推荐知识迁移,我们提出了一种名为多模态量化语言生成式推荐(MQL4GRec)的新方法。其核心思想是将来自不同领域和模态的商品转换为统一的语言,作为迁移推荐知识的桥梁。具体来说,我们首先引入量化翻译器,将来自不同领域的商品的文本和图像内容转换为一种新的简洁语言,即量化语言,所有商品共享相同的词汇表。然后,我们设计了一系列量化语言生成任务,以丰富量化语言的语义信息和先验知识。最后,我们通过预训练和微调,实现从不同领域和模态到推荐任务的知识迁移。通过广泛的实验和与现有方法的比较,我们评估了MQL4GRec的有效性,在三个不同的数据集上,NDCG指标分别提高了11.18%、14.82%和7.95%。

🔬 方法详解

问题定义:现有生成式推荐方法依赖于预训练语言模型(PLM),但PLM的通用语言知识与推荐系统的特定需求存在差异。此外,现有方法很少考虑商品多模态信息(如文本和图像)之间的互补知识,而这些信息对于理解用户多方面的偏好至关重要。因此,如何有效地利用PLM的知识,并融合多模态信息,是生成式推荐面临的关键问题。

核心思路:MQL4GRec的核心思路是将来自不同领域和模态的商品信息转换为一种统一的“量化语言”。这种量化语言具有简洁的词汇表,能够消除不同领域和模态之间的差异,从而为知识迁移提供一个通用的桥梁。通过将商品信息编码为量化语言,模型可以更容易地学习到跨领域和跨模态的共享知识,并将其应用于推荐任务。

技术框架:MQL4GRec的整体框架包括以下几个主要模块:1) 量化翻译器:将商品的文本和图像内容转换为量化语言。2) 量化语言生成任务:通过设计一系列生成任务,丰富量化语言的语义信息和先验知识。3) 预训练和微调:在量化语言上进行预训练,然后在具体的推荐任务上进行微调,实现知识迁移。

关键创新:MQL4GRec最重要的创新点在于提出了“量化语言”的概念,并将其应用于生成式推荐。与现有方法直接使用PLM不同,MQL4GRec首先将商品信息转换为一种更适合推荐任务的语言,从而更好地利用PLM的知识。此外,MQL4GRec还考虑了多模态信息的融合,通过量化翻译器将文本和图像信息统一到量化语言中。

关键设计:量化翻译器的具体实现方式未知,论文中可能使用了某种编码器-解码器结构,将文本和图像转换为量化语言的表示。量化语言生成任务的具体设计也未知,可能包括掩码语言模型、序列到序列生成等任务。损失函数的设计也未知,可能包括交叉熵损失、对比学习损失等。网络结构的选择也未知,可能使用了Transformer、CNN等模型。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,MQL4GRec在三个不同的数据集上取得了显著的性能提升。具体来说,在NDCG指标上,MQL4GRec相比基线方法分别提升了11.18%、14.82%和7.95%。这些结果表明,MQL4GRec能够有效地利用多模态信息和PLM的知识,从而提升生成式推荐的性能。

🎯 应用场景

MQL4GRec具有广泛的应用前景,可以应用于电商推荐、电影推荐、音乐推荐等领域。通过将不同领域和模态的商品信息转换为统一的量化语言,可以实现跨领域和跨模态的知识迁移,从而提升推荐系统的性能。此外,MQL4GRec还可以用于冷启动推荐,即在缺乏用户历史行为的情况下,利用商品的文本和图像信息进行推荐。未来,该方法还可以扩展到其他推荐场景,如社交推荐、新闻推荐等。

📄 摘要(原文)

Generative recommendation has emerged as a promising paradigm aiming at directly generating the identifiers of the target candidates. Most existing methods attempt to leverage prior knowledge embedded in Pre-trained Language Models (PLMs) to improve the recommendation performance. However, they often fail to accommodate the differences between the general linguistic knowledge of PLMs and the specific needs of recommendation systems. Moreover, they rarely consider the complementary knowledge between the multimodal information of items, which represents the multi-faceted preferences of users. To facilitate efficient recommendation knowledge transfer, we propose a novel approach called Multimodal Quantitative Language for Generative Recommendation (MQL4GRec). Our key idea is to transform items from different domains and modalities into a unified language, which can serve as a bridge for transferring recommendation knowledge. Specifically, we first introduce quantitative translators to convert the text and image content of items from various domains into a new and concise language, known as quantitative language, with all items sharing the same vocabulary. Then, we design a series of quantitative language generation tasks to enrich quantitative language with semantic information and prior knowledge. Finally, we achieve the transfer of recommendation knowledge from different domains and modalities to the recommendation task through pre-training and fine-tuning. We evaluate the effectiveness of MQL4GRec through extensive experiments and comparisons with existing methods, achieving improvements over the baseline by 11.18\%, 14.82\%, and 7.95\% on the NDCG metric across three different datasets, respectively.