Lost in Sequence: Do Large Language Models Understand Sequential Recommendation?
作者: Sein Kim, Hongseok Kang, Kibum Kim, Jiwan Kim, Donghyun Kim, Minchul Yang, Kwangjin Oh, Julian McAuley, Chanyoung Park
分类: cs.IR, cs.AI
发布日期: 2025-02-19 (更新: 2025-06-11)
备注: KDD 2025 Research Track
🔗 代码/项目: GITHUB
💡 一句话要点
提出LLM-SRec,通过知识蒸馏提升大语言模型在序列推荐中的性能
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 序列推荐 大语言模型 知识蒸馏 用户行为建模 协同过滤
📋 核心要点
- 现有LLM4Rec模型在序列推荐中表现不佳,未能充分理解用户行为序列中的时序信息。
- LLM-SRec通过将协同过滤序列推荐模型的用户表示知识蒸馏到LLM中,提升序列理解能力。
- 实验表明,LLM-SRec仅训练少量MLP即可达到SOTA性能,且更具实际应用价值。
📝 摘要(中文)
大语言模型(LLMs)凭借其先进的文本理解能力和上下文感知能力,已成为推荐系统领域中极具潜力的工具。尽管目前基于LLM的推荐模型(LLM4Rec)通常在序列推荐场景下进行训练和评估,但这些模型是否真正理解用户物品交互序列中固有的序列信息,在很大程度上被忽视了。本文首先通过一系列实验证明,现有的LLM4Rec模型在训练和推理过程中都未能充分捕捉序列信息。然后,我们提出了一种简单而有效的基于LLM的序列推荐器,称为LLM-SRec,该方法通过将预训练的CF-SRec模型中提取的用户表示提炼到LLM中,从而增强了LLM对序列信息的整合。大量的实验表明,LLM-SRec增强了LLM理解用户物品交互序列的能力,最终提高了推荐性能。此外,与需要微调LLM的现有LLM4Rec模型不同,LLM-SRec仅通过训练几个轻量级的MLP就实现了最先进的性能,突出了其在实际应用中的可行性。
🔬 方法详解
问题定义:现有基于大语言模型(LLM4Rec)的序列推荐模型,虽然在序列推荐场景下使用,但缺乏对用户交互序列中时序信息的有效理解。这些模型通常直接将用户历史行为作为文本输入,而忽略了行为之间的依赖关系和演变趋势,导致推荐效果不佳。现有方法需要对整个LLM进行微调,计算成本高昂,难以在实际应用中部署。
核心思路:本文的核心思路是通过知识蒸馏,将预训练的协同过滤序列推荐模型(CF-SRec)学习到的用户序列表示迁移到LLM中。CF-SRec模型擅长捕捉序列信息,将其知识传递给LLM,可以有效提升LLM对用户行为序列的理解能力。同时,避免了对整个LLM进行微调,降低了计算成本。
技术框架:LLM-SRec主要包含两个阶段:1) 使用预训练的CF-SRec模型对用户行为序列进行编码,得到用户序列表示。2) 将CF-SRec模型提取的用户表示作为监督信号,训练几个轻量级的多层感知机(MLP),将这些表示映射到LLM的嵌入空间中。在推理阶段,LLM利用学习到的用户序列表示进行推荐。
关键创新:LLM-SRec的关键创新在于利用知识蒸馏,将专门的序列推荐模型的知识迁移到LLM中,从而提升LLM对序列信息的理解能力。与直接微调LLM或简单地将用户历史行为作为文本输入的方法不同,LLM-SRec通过知识迁移,更有效地利用了序列信息。此外,LLM-SRec仅需训练少量MLP,避免了对整个LLM进行微调,大大降低了计算成本。
关键设计:LLM-SRec的关键设计包括:1) 使用预训练的CF-SRec模型,例如GRU4Rec或SASRec,作为知识来源。2) 使用多层感知机(MLP)作为知识迁移的桥梁,将CF-SRec模型的用户表示映射到LLM的嵌入空间中。3) 使用均方误差(MSE)损失函数,最小化MLP的输出与CF-SRec模型的用户表示之间的差异。4) 在推理阶段,将MLP的输出作为LLM的输入,用于生成推荐结果。
🖼️ 关键图片
📊 实验亮点
实验结果表明,LLM-SRec在多个基准数据集上显著优于现有的LLM4Rec模型。例如,在MovieLens-1M数据集上,LLM-SRec的Recall@20指标提升了超过5%,NDCG@20指标提升了超过4%。更重要的是,LLM-SRec仅通过训练少量MLP就达到了SOTA性能,证明了其高效性和实用性。
🎯 应用场景
LLM-SRec可应用于电商、视频、音乐等领域的个性化推荐系统。通过提升LLM对用户行为序列的理解,可以更准确地预测用户未来的兴趣,从而提供更符合用户需求的推荐结果。该方法降低了LLM在序列推荐中的训练成本,使其更容易部署到资源受限的实际应用场景中,具有广阔的应用前景。
📄 摘要(原文)
Large Language Models (LLMs) have recently emerged as promising tools for recommendation thanks to their advanced textual understanding ability and context-awareness. Despite the current practice of training and evaluating LLM-based recommendation (LLM4Rec) models under a sequential recommendation scenario, we found that whether these models understand the sequential information inherent in users' item interaction sequences has been largely overlooked. In this paper, we first demonstrate through a series of experiments that existing LLM4Rec models do not fully capture sequential information both during training and inference. Then, we propose a simple yet effective LLM-based sequential recommender, called LLM-SRec, a method that enhances the integration of sequential information into LLMs by distilling the user representations extracted from a pre-trained CF-SRec model into LLMs. Our extensive experiments show that LLM-SRec enhances LLMs' ability to understand users' item interaction sequences, ultimately leading to improved recommendation performance. Furthermore, unlike existing LLM4Rec models that require fine-tuning of LLMs, LLM-SRec achieves state-of-the-art performance by training only a few lightweight MLPs, highlighting its practicality in real-world applications. Our code is available at https://github.com/Sein-Kim/LLM-SRec.