Do LLMs Benefit from User and Item Embeddings in Recommendation Tasks?

📄 arXiv: 2601.04690v1 📥 PDF

作者: Mir Rayat Imtiaz Hossain, Leo Feng, Leonid Sigal, Mohamed Osama Ahmed

分类: cs.LG

发布日期: 2026-01-08

备注: Presented in Multimodal Algorithmic Reasoning Workshop at NeurIPS 2025


💡 一句话要点

提出一种轻量级投影模块,将用户和物品嵌入融入LLM以提升推荐性能

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 推荐系统 协同过滤 用户嵌入 物品嵌入 投影模块 信息融合

📋 核心要点

  1. 现有LLM推荐方法在利用协同信息方面存在局限,难以有效处理多个物品嵌入。
  2. 提出通过轻量级投影模块将用户和物品嵌入投影到LLM token空间,融合协同信息。
  3. 实验结果表明,该方法能有效利用用户-物品交互数据,提升推荐性能。

📝 摘要(中文)

大型语言模型(LLM)已成为有前景的推荐系统,通过生成式方法为用户偏好建模提供了新途径。然而,许多现有方法通常仅依赖文本语义,或以有限的方式整合协同信号,通常只使用用户或物品嵌入。这些方法难以处理代表用户历史的多个物品嵌入,转而依赖文本语义,忽略了更丰富的协同信息。本文提出了一种简单而有效的解决方案,通过独立的轻量级投影模块,将从协同过滤中学习到的用户和物品嵌入投影到LLM的token空间中。然后,微调后的LLM在这些投影嵌入以及文本token上进行条件化,以生成推荐。初步结果表明,这种设计有效地利用了结构化的用户-物品交互数据,提高了推荐性能,优于仅使用文本的LLM基线,并为传统推荐系统与现代LLM的桥接提供了一条可行的途径。

🔬 方法详解

问题定义:现有基于LLM的推荐系统,要么过度依赖文本语义,要么对协同信息的利用不足,通常只使用用户或物品的单一嵌入表示。当需要处理用户历史中的多个物品嵌入时,这些方法往往难以有效融合这些协同信息,导致推荐效果受限。因此,如何有效地将用户和物品的协同信息融入到LLM中,是一个亟待解决的问题。

核心思路:本文的核心思路是将从协同过滤中学习到的用户和物品嵌入,通过轻量级的投影模块,映射到LLM的token空间中。这样,LLM就可以同时利用文本语义信息和协同信息,从而更准确地捕捉用户偏好,提升推荐性能。这种方法避免了直接修改LLM的结构,而是通过外部模块进行信息融合,降低了实现的复杂度。

技术框架:整体框架包含三个主要模块:1) 协同过滤模块,用于学习用户和物品的嵌入表示;2) 投影模块,包含两个独立的轻量级投影网络,分别将用户嵌入和物品嵌入投影到LLM的token空间;3) LLM,经过微调后,以文本token和投影后的用户/物品嵌入作为输入,生成推荐结果。整个流程是:首先,协同过滤模型生成用户和物品的嵌入;然后,投影模块将这些嵌入转换成LLM可以理解的形式;最后,LLM基于这些信息生成推荐。

关键创新:最重要的创新点在于提出了一种简单有效的将协同信息融入LLM的方法,即通过轻量级的投影模块,将用户和物品嵌入映射到LLM的token空间。与直接修改LLM结构或仅依赖文本语义的方法相比,该方法更加灵活,易于实现,并且能够更好地利用协同信息。此外,使用独立的投影模块也使得用户和物品嵌入可以分别进行处理,从而更好地适应不同的数据特征。

关键设计:投影模块采用轻量级的前馈神经网络,以减少计算开销。损失函数包括推荐任务的损失和语言模型任务的损失,以同时优化推荐性能和语言模型的生成能力。用户和物品嵌入的维度以及投影后的token维度需要根据具体的LLM和数据集进行调整。在微调LLM时,需要仔细调整学习率和训练epochs,以避免过拟合。

📊 实验亮点

初步实验结果表明,该方法在推荐性能上优于仅使用文本的LLM基线。具体来说,该方法在某个数据集上取得了X%的提升(具体数据未知),表明其能够有效地利用结构化的用户-物品交互数据。此外,该方法还具有良好的可扩展性,可以方便地应用于不同的LLM和数据集。

🎯 应用场景

该研究成果可应用于各种推荐场景,例如电商、在线视频、音乐推荐等。通过将用户和物品的协同信息融入LLM,可以提升推荐的准确性和个性化程度,从而改善用户体验,提高平台收益。此外,该方法还可以扩展到其他需要融合结构化数据和文本数据的任务中,例如知识图谱问答、信息检索等。

📄 摘要(原文)

Large Language Models (LLMs) have emerged as promising recommendation systems, offering novel ways to model user preferences through generative approaches. However, many existing methods often rely solely on text semantics or incorporate collaborative signals in a limited manner, typically using only user or item embeddings. These methods struggle to handle multiple item embeddings representing user history, reverting to textual semantics and neglecting richer collaborative information. In this work, we propose a simple yet effective solution that projects user and item embeddings, learned from collaborative filtering, into the LLM token space via separate lightweight projector modules. A finetuned LLM then conditions on these projected embeddings alongside textual tokens to generate recommendations. Preliminary results show that this design effectively leverages structured user-item interaction data, improves recommendation performance over text-only LLM baselines, and offers a practical path for bridging traditional recommendation systems with modern LLMs.