LARR: Large Language Model Aided Real-time Scene Recommendation with Semantic Understanding

作者: Zhizhong Wan, Bin Yin, Junjie Xie, Fei Jiang, Xiang Li, Wei Lin

分类: cs.IR, cs.AI

发布日期: 2024-08-21

DOI: 10.1145/3640457.3688135

💡 一句话要点

提出LARR，利用大语言模型增强实时场景推荐的语义理解能力

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 推荐系统 大型语言模型 实时场景理解 点击率预测 对比学习

📋 核心要点

传统推荐系统依赖协同信号，缺乏对实时场景的语义理解，限制了个性化推荐的质量。
LARR利用LLM进行语义理解，无需LLM直接处理整个实时场景文本，提升了LLM在推荐系统中的应用效率。
通过持续预训练和对比学习，LARR将领域知识注入LLM，并使用聚合编码器融合LLM的输出，提升推荐性能。

📝 摘要（中文）

点击率(CTR)预测对于推荐系统(RS)至关重要，旨在为用户提供个性化的推荐服务，如外卖、电商等。然而，传统的推荐系统依赖于协同信号，缺乏对实时场景的语义理解。同时，将大型语言模型(LLM)应用于实际推荐的主要挑战在于处理长文本输入的效率。为了解决上述问题，我们提出了大型语言模型辅助的实时场景推荐(LARR)，利用LLM进行语义理解，在推荐系统中利用实时场景信息，而无需LLM直接处理整个实时场景文本，从而提高基于LLM的CTR建模效率。具体来说，我们将推荐领域特定的知识注入到LLM中，然后RS采用聚合编码器从LLM的独立输出中构建实时场景信息。首先，借助特殊token，在从推荐数据构建的语料库上对LLM进行持续预训练。随后，通过三种样本构建策略，在对比学习中对LLM进行微调。通过这一步骤，LLM被转换为文本嵌入模型。最后，LLM对不同场景特征的独立输出由编码器聚合，与推荐系统中的协同信号对齐，从而提高推荐模型的性能。

🔬 方法详解

问题定义：传统推荐系统依赖协同过滤等方法，难以有效理解实时场景信息，导致推荐结果不够精准。直接使用大型语言模型处理实时场景文本效率低下，无法满足实时推荐的需求。

核心思路：LARR的核心思路是利用LLM的语义理解能力，但避免直接处理长文本输入。通过将LLM的输出作为场景特征的嵌入表示，再由聚合编码器进行融合，从而在保证效率的同时，提升推荐模型对场景的理解能力。

技术框架：LARR包含三个主要阶段：1) LLM的持续预训练，使用推荐领域数据增强LLM的领域知识；2) LLM的对比学习微调，将LLM转化为文本嵌入模型，使其能够有效表示场景特征；3) 聚合编码器，融合LLM对不同场景特征的输出，并与协同信号对齐，最终用于CTR预测。

关键创新：LARR的关键创新在于将LLM的语义理解能力与传统推荐系统的协同信号相结合，通过聚合编码器实现高效的场景信息融合。避免了直接使用LLM处理长文本，提升了实时推荐的效率。

关键设计：在持续预训练阶段，使用特殊token来引导LLM学习推荐领域知识。在对比学习阶段，设计了三种样本构建策略，以增强LLM对不同场景特征的区分能力。聚合编码器可以使用不同的网络结构，如Transformer或MLP，具体选择取决于实际场景和性能需求。

🖼️ 关键图片

📊 实验亮点

论文通过实验验证了LARR的有效性，相较于传统推荐模型，LARR在CTR预测任务上取得了显著的性能提升。具体提升幅度未知，但摘要中明确指出LARR增强了推荐模型的性能。

🎯 应用场景

LARR可应用于各种需要实时场景理解的推荐系统，例如外卖推荐、电商推荐、新闻推荐等。通过提升推荐系统对用户实时意图的理解，可以显著提高用户满意度和平台收益。未来，LARR可以扩展到更复杂的场景，例如结合多模态信息进行推荐。

📄 摘要（原文）

Click-Through Rate (CTR) prediction is crucial for Recommendation System(RS), aiming to provide personalized recommendation services for users in many aspects such as food delivery, e-commerce and so on. However, traditional RS relies on collaborative signals, which lacks semantic understanding to real-time scenes. We also noticed that a major challenge in utilizing Large Language Models (LLMs) for practical recommendation purposes is their efficiency in dealing with long text input. To break through the problems above, we propose Large Language Model Aided Real-time Scene Recommendation(LARR), adopt LLMs for semantic understanding, utilizing real-time scene information in RS without requiring LLM to process the entire real-time scene text directly, thereby enhancing the efficiency of LLM-based CTR modeling. Specifically, recommendation domain-specific knowledge is injected into LLM and then RS employs an aggregation encoder to build real-time scene information from separate LLM's outputs. Firstly, a LLM is continual pretrained on corpus built from recommendation data with the aid of special tokens. Subsequently, the LLM is fine-tuned via contrastive learning on three kinds of sample construction strategies. Through this step, LLM is transformed into a text embedding model. Finally, LLM's separate outputs for different scene features are aggregated by an encoder, aligning to collaborative signals in RS, enhancing the performance of recommendation model.

LARR: Large Language Model Aided Real-time Scene Recommendation with Semantic Understanding

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理