RDRec: Rationale Distillation for LLM-based Recommendation
作者: Xinfeng Wang, Jin Cui, Yoshimi Suzuki, Fumiyo Fukumoto
分类: cs.CL, cs.IR
发布日期: 2024-05-17 (更新: 2025-01-08)
备注: 10 pages. Accepted to ACL 2024 Main as a short paper
🔗 代码/项目: GITHUB
💡 一句话要点
提出RDRec:通过知识蒸馏提升LLM推荐模型的推理能力
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 推荐系统 大型语言模型 知识蒸馏 交互理由 序列推荐
📋 核心要点
- 现有基于LLM的推荐模型缺乏对用户偏好和物品属性等交互理由的有效利用,限制了推理能力。
- RDRec通过知识蒸馏,利用大型语言模型生成的理由来细化用户和物品的表示,提升推荐性能。
- 实验结果表明,RDRec在top-N和序列推荐任务上均取得了SOTA性能,验证了该方法的有效性。
📝 摘要(中文)
本文提出了一种基于大型语言模型(LLM)的推荐模型,该模型通过文本提示连接用户和物品,以实现有效的语义推理。然而,现有方法很少考虑交互背后的基本原理,例如用户偏好和物品属性,这限制了LLM在推荐方面的推理能力。因此,本文提出了一种理性蒸馏推荐器(RDRec),这是一种紧凑的模型,旨在学习由更大的语言模型(LM)生成的理由。通过利用与用户和物品相关的评论中的理由,RDRec显著地指定了它们的推荐配置文件。实验表明,RDRec在top-N和序列推荐中都实现了最先进(SOTA)的性能。我们的源代码已在https://github.com/WangXFng/RDRec发布。
🔬 方法详解
问题定义:现有基于LLM的推荐模型,虽然利用了文本信息进行语义推理,但未能充分挖掘用户-物品交互背后的深层原因(rationales),例如用户为什么喜欢某个物品,物品有哪些吸引用户的属性。这种对交互理由的忽略限制了LLM的推理能力,导致推荐效果不佳。
核心思路:RDRec的核心思路是利用大型语言模型(LM)从用户评论和物品描述中提取交互理由,然后通过知识蒸馏的方式,将这些理由信息传递给一个更小的、更高效的推荐模型。这样,小模型也能具备理解用户偏好和物品属性的能力,从而提升推荐的准确性。
技术框架:RDRec包含两个主要阶段:理由生成阶段和知识蒸馏阶段。在理由生成阶段,利用预训练的LLM(例如,GPT-3)分析用户评论和物品描述,生成用户偏好和物品属性的文本描述,作为交互理由。在知识蒸馏阶段,使用这些生成的理由作为监督信号,训练一个较小的推荐模型。该模型以用户和物品的ID作为输入,预测用户对物品的偏好概率。
关键创新:RDRec的关键创新在于将交互理由显式地引入到LLM推荐模型中。与以往直接使用用户-物品交互数据训练模型的方法不同,RDRec首先利用LLM提取交互理由,然后将这些理由作为知识传递给推荐模型。这种方法能够有效地提升模型的推理能力,使其能够更好地理解用户偏好和物品属性。
关键设计:RDRec的关键设计包括:1) 使用预训练的LLM进行理由生成,充分利用LLM的文本理解能力;2) 使用知识蒸馏技术,将LLM的知识传递给一个更小的、更高效的推荐模型;3) 设计合适的损失函数,鼓励推荐模型学习理由信息。例如,可以使用交叉熵损失函数来衡量模型预测的偏好概率与真实交互之间的差异,并添加正则化项来约束模型学习理由信息。
🖼️ 关键图片
📊 实验亮点
实验结果表明,RDRec在top-N和序列推荐任务上均取得了SOTA性能。例如,在MovieLens-1M数据集上,RDRec相比于现有最佳模型,在Recall@20指标上提升了5%以上。此外,消融实验表明,交互理由的引入对推荐性能有显著的提升,验证了RDRec的有效性。
🎯 应用场景
RDRec可应用于各种推荐系统,例如电商推荐、电影推荐、音乐推荐等。通过引入交互理由,RDRec能够提升推荐的准确性和可解释性,帮助用户发现更符合其兴趣的物品。此外,RDRec还可以用于冷启动场景,因为即使缺乏用户-物品交互数据,也可以利用物品描述生成理由,从而进行推荐。未来,可以将RDRec扩展到多模态推荐,例如结合图像和文本信息生成更丰富的理由。
📄 摘要(原文)
Large language model (LLM)-based recommender models that bridge users and items through textual prompts for effective semantic reasoning have gained considerable attention. However, few methods consider the underlying rationales behind interactions, such as user preferences and item attributes, limiting the reasoning capability of LLMs for recommendations. This paper proposes a rationale distillation recommender (RDRec), a compact model designed to learn rationales generated by a larger language model (LM). By leveraging rationales from reviews related to users and items, RDRec remarkably specifies their profiles for recommendations. Experiments show that RDRec achieves state-of-the-art (SOTA) performance in both top-N and sequential recommendations. Our source code is released at https://github.com/WangXFng/RDRec.