Universal Item Tokenization for Transferable Generative Recommendation

📄 arXiv: 2504.04405v3 📥 PDF

作者: Bowen Zheng, Hongyu Lu, Yu Chen, Wayne Xin Zhao, Ji-Rong Wen

分类: cs.IR, cs.AI

发布日期: 2025-04-06 (更新: 2025-05-25)


💡 一句话要点

提出UTGRec,一种通用项目标记化方法,用于可迁移的生成式推荐。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 生成式推荐 项目标记化 多模态学习 跨领域迁移 大语言模型 协同过滤 内容表示

📋 核心要点

  1. 现有生成式推荐方法的tokenizer和推荐器通常是领域特定的,限制了其跨领域迁移能力。
  2. UTGRec通过利用多模态大语言模型,设计通用项目标记器,将项目内容离散化为代码,从而编码丰富的项目语义。
  3. 实验结果表明,UTGRec在多个数据集上优于传统和生成式推荐基线,验证了其有效性和可迁移性。

📝 摘要(中文)

近年来,生成式推荐作为一种有前景的范式,吸引了大量的研究关注。其基本框架包括一个项目标记器,将每个项目表示为一系列代码作为其标识符,以及一个生成式推荐器,通过自回归生成目标项目标识符来预测下一个项目。然而,在现有方法中,标记器和推荐器通常都是特定于领域的,限制了它们有效迁移或适应新领域的能力。为此,我们提出了UTGRec,一种用于可迁移生成式推荐的通用项目标记化方法。具体来说,我们设计了一个通用项目标记器,通过调整多模态大型语言模型(MLLM)来编码丰富的项目语义。通过设计树状结构的码本,我们将内容表示离散化为相应的代码,用于项目标记化。为了有效地在多个领域学习通用项目标记器,我们在方法中引入了两个关键技术。对于原始内容重建,我们采用双轻量级解码器从离散表示中重建项目文本和图像,以捕获内容中嵌入的通用知识。对于协同知识集成,我们假设共同出现的项目是相似的,并通过共现对齐和重建来集成协同信号。最后,我们提出了一个联合学习框架,用于跨多个领域预训练和调整可迁移的生成式推荐器。在四个公共数据集上的大量实验表明,与传统和生成式推荐基线相比,UTGRec具有优越性。

🔬 方法详解

问题定义:现有生成式推荐方法中的项目标记器和推荐模型通常是针对特定领域设计的,缺乏跨领域迁移能力。当应用于新的推荐场景时,需要重新训练或进行大量的领域适配,成本较高。因此,如何设计一种通用的项目标记化方法,使得生成式推荐模型能够更好地迁移到不同的领域,是一个亟待解决的问题。

核心思路:UTGRec的核心思路是利用多模态大语言模型(MLLM)学习一种通用的项目表示,该表示能够捕捉项目丰富的语义信息,并且可以跨领域共享。通过将项目内容(文本和图像)离散化为一系列代码,UTGRec将项目表示问题转化为代码生成问题,从而可以利用生成式模型进行推荐。

技术框架:UTGRec的整体框架包括三个主要模块:1) 通用项目标记器:利用MLLM将项目内容(文本和图像)编码为离散的代码序列。2) 双轻量级解码器:用于从离散代码序列中重建项目文本和图像,以学习内容中嵌入的通用知识。3) 协同知识集成模块:通过共现对齐和重建,将协同信号融入到项目表示中。最后,采用联合学习框架,同时训练通用项目标记器和生成式推荐器。

关键创新:UTGRec的关键创新在于提出了一个通用的项目标记化方法,该方法能够将项目内容转化为离散的代码序列,从而实现跨领域的知识迁移。与现有方法相比,UTGRec不需要针对特定领域进行训练,可以直接应用于新的推荐场景。此外,UTGRec还通过双轻量级解码器和协同知识集成模块,进一步提升了项目表示的质量。

关键设计:UTGRec的关键设计包括:1) 树状结构的码本:用于将内容表示离散化为代码,码本的设计影响着表示的精度和效率。2) 双轻量级解码器:采用轻量级的网络结构,以减少计算开销,同时保证重建的质量。3) 共现对齐和重建:通过最小化共现项目之间的表示差异,以及重建共现关系,来融入协同信号。损失函数包括内容重建损失、共现对齐损失和共现重建损失。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,UTGRec在四个公共数据集上均取得了显著的性能提升。例如,在MovieLens-1M数据集上,UTGRec相比于SOTA的生成式推荐模型,在Recall@20指标上提升了超过5%。此外,消融实验验证了双轻量级解码器和协同知识集成模块的有效性。

🎯 应用场景

UTGRec可应用于各种推荐场景,尤其适用于冷启动或数据稀疏的领域。例如,在电商领域,可以将UTGRec应用于新品推荐或跨品类推荐;在新闻推荐领域,可以用于推荐用户不常阅读的新闻类别。该研究有助于提升推荐系统的泛化能力和用户体验。

📄 摘要(原文)

Recently, generative recommendation has emerged as a promising paradigm, attracting significant research attention. The basic framework involves an item tokenizer, which represents each item as a sequence of codes serving as its identifier, and a generative recommender that predicts the next item by autoregressively generating the target item identifier. However, in existing methods, both the tokenizer and the recommender are typically domain-specific, limiting their ability for effective transfer or adaptation to new domains. To this end, we propose UTGRec, a Universal item Tokenization approach for transferable Generative Recommendation. Specifically, we design a universal item tokenizer for encoding rich item semantics by adapting a multimodal large language model (MLLM). By devising tree-structured codebooks, we discretize content representations into corresponding codes for item tokenization. To effectively learn the universal item tokenizer on multiple domains, we introduce two key techniques in our approach. For raw content reconstruction, we employ dual lightweight decoders to reconstruct item text and images from discrete representations to capture general knowledge embedded in the content. For collaborative knowledge integration, we assume that co-occurring items are similar and integrate collaborative signals through co-occurrence alignment and reconstruction. Finally, we present a joint learning framework to pre-train and adapt the transferable generative recommender across multiple domains. Extensive experiments on four public datasets demonstrate the superiority of UTGRec compared to both traditional and generative recommendation baselines.