Do LLMs Benefit from User and Item Embeddings in Recommendation Tasks?
作者: Mir Rayat Imtiaz Hossain, Leo Feng, Leonid Sigal, Mohamed Osama Ahmed
分类: cs.LG
发布日期: 2026-01-08
备注: Presented in Multimodal Algorithmic Reasoning Workshop at NeurIPS 2025
💡 一句话要点
提出一种轻量级投影模块,将用户和物品嵌入融入LLM以提升推荐性能
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 推荐系统 协同过滤 用户嵌入 物品嵌入
📋 核心要点
- 现有基于LLM的推荐方法难以有效融合用户历史中的多个物品嵌入,导致协同信息的利用不足。
- 论文提出将协同过滤学习到的用户和物品嵌入投影到LLM的token空间,辅助LLM进行推荐。
- 实验结果表明,该方法能够有效利用用户-物品交互数据,提升推荐性能,优于纯文本LLM基线。
📝 摘要(中文)
大型语言模型(LLM)已成为有前景的推荐系统,通过生成式方法为用户偏好建模提供了新途径。然而,许多现有方法通常仅依赖文本语义,或以有限的方式结合协同信号,通常只使用用户或物品嵌入。这些方法难以处理代表用户历史的多个物品嵌入,转而依赖文本语义,忽略了更丰富的协同信息。本文提出了一种简单而有效的解决方案,通过独立的轻量级投影模块,将从协同过滤中学习到的用户和物品嵌入投影到LLM的token空间。然后,微调后的LLM以这些投影嵌入以及文本token为条件来生成推荐。初步结果表明,这种设计有效地利用了结构化的用户-物品交互数据,提高了推荐性能,优于仅使用文本的LLM基线,并为传统推荐系统与现代LLM的桥接提供了一条可行的途径。
🔬 方法详解
问题定义:现有基于LLM的推荐系统,在融合用户历史行为信息时存在瓶颈。具体来说,当用户历史包含多个物品时,现有方法难以有效利用这些物品的嵌入表示,往往退化为仅依赖文本语义进行推荐,忽略了用户-物品交互的协同信息。这导致推荐结果的个性化程度和准确性受到限制。
核心思路:论文的核心思路是将传统协同过滤方法学习到的用户和物品嵌入,通过轻量级的投影模块,映射到LLM的token空间。这样,LLM在生成推荐时,不仅可以利用文本信息,还可以直接利用用户和物品的协同信息,从而提升推荐效果。这种方法旨在弥合传统推荐系统和现代LLM之间的差距。
技术框架:整体框架包含三个主要模块:1) 协同过滤模块,用于学习用户和物品的嵌入表示;2) 投影模块,包含两个独立的轻量级投影网络,分别将用户和物品嵌入投影到LLM的token空间;3) LLM模块,以投影后的用户和物品嵌入以及文本token为条件,生成推荐结果。整个流程是先通过协同过滤获得嵌入,然后通过投影模块将其融入LLM,最后微调LLM进行推荐。
关键创新:最重要的创新点在于提出了一种简单有效的嵌入投影方法,将协同过滤学习到的用户和物品嵌入无缝集成到LLM中。与现有方法相比,该方法能够更充分地利用用户-物品交互数据,避免了信息损失。此外,使用轻量级投影模块降低了计算成本,使得该方法更具实用性。
关键设计:投影模块使用简单的线性层或多层感知机(MLP)作为投影函数,将用户和物品嵌入映射到LLM的token空间。损失函数通常是标准的语言模型损失,用于微调LLM。关键参数包括投影模块的网络结构、学习率、batch size等。具体网络结构的选择和参数设置需要根据具体数据集进行调整。
📊 实验亮点
初步实验结果表明,该方法在推荐性能上优于仅使用文本的LLM基线。具体而言,通过将用户和物品嵌入投影到LLM中,推荐的准确率和召回率均得到了显著提升。这些结果验证了该方法能够有效利用用户-物品交互数据,并为传统推荐系统与现代LLM的融合提供了一条可行的途径。
🎯 应用场景
该研究成果可应用于各种推荐场景,例如电商、视频平台、音乐应用等。通过将用户和物品的协同信息融入LLM,可以提升推荐的个性化程度和准确性,从而提高用户满意度和平台收益。此外,该方法还可以用于冷启动场景,为新用户或新物品提供更准确的推荐。
📄 摘要(原文)
Large Language Models (LLMs) have emerged as promising recommendation systems, offering novel ways to model user preferences through generative approaches. However, many existing methods often rely solely on text semantics or incorporate collaborative signals in a limited manner, typically using only user or item embeddings. These methods struggle to handle multiple item embeddings representing user history, reverting to textual semantics and neglecting richer collaborative information. In this work, we propose a simple yet effective solution that projects user and item embeddings, learned from collaborative filtering, into the LLM token space via separate lightweight projector modules. A finetuned LLM then conditions on these projected embeddings alongside textual tokens to generate recommendations. Preliminary results show that this design effectively leverages structured user-item interaction data, improves recommendation performance over text-only LLM baselines, and offers a practical path for bridging traditional recommendation systems with modern LLMs.