Optimizing Novelty of Top-k Recommendations using Large Language Models and Reinforcement Learning
作者: Amit Sharma, Hua Li, Xue Li, Jian Jiao
分类: cs.IR, cs.LG
发布日期: 2024-06-20
备注: Accepted at KDD 2024
💡 一句话要点
利用大语言模型和强化学习优化Top-k推荐的新颖性
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 推荐系统 新颖性优化 强化学习 大语言模型 Top-k推荐
📋 核心要点
- 现有推荐模型难以直接优化Top-k推荐的新颖性,因为排序操作不可微,且新颖物品缺乏用户反馈。
- 利用大语言模型的语义理解能力,构建强化学习框架,将Top-k列表奖励分解为物品级别奖励,降低样本复杂度。
- 实验结果表明,该方法在多个数据集上显著提高了推荐的新颖性,同时保持了良好的召回率。
📝 摘要(中文)
本文提出了一种利用大语言模型和强化学习来优化Top-k推荐新颖性的方法。针对推荐模型在实际应用中,除了准确性之外,新颖性也是一个重要的考虑因素,但直接优化Top-k推荐的新颖性具有挑战性,因为它涉及到不可微的排序操作,并且新颖物品缺乏用户反馈数据。本文利用大语言模型的语义能力,采用强化学习框架,其中大语言模型为新颖物品提供反馈。为了降低强化学习的样本复杂度,将Top-k列表奖励分解为物品级别的奖励,并将状态空间重新定义为<查询,物品>元组,从而将动作空间简化为二元决策。实验表明,该算法在大型搜索引擎的查询-广告推荐任务、ORCAS查询-网页匹配数据集和基于Amazon评论的产品推荐数据集上,均能显著提高新颖性,同时保持召回率。
🔬 方法详解
问题定义:论文旨在解决推荐系统中Top-k推荐结果的新颖性问题。现有方法难以直接优化新颖性,主要痛点在于:1) Top-k排序操作是不可微的,无法直接通过梯度下降优化;2) 新颖的物品缺乏用户反馈数据,难以评估其质量。
核心思路:论文的核心思路是利用大语言模型(LLM)的语义理解能力,为新颖物品提供反馈,并将其融入到强化学习(RL)框架中。通过RL,模型可以学习如何选择既相关又新颖的物品进行推荐。这样设计的目的是为了克服传统方法中新颖性难以优化和缺乏反馈的问题。
技术框架:整体框架包含以下几个主要模块:1) 推荐模型:用于生成候选物品列表;2) 大语言模型(LLM):作为奖励函数,评估物品的新颖性和相关性;3) 强化学习(RL)代理:学习选择Top-k物品的策略。具体流程是:用户输入查询,推荐模型生成候选物品列表,RL代理根据当前状态(查询和物品)选择是否推荐该物品,LLM评估该物品的奖励,RL代理根据奖励更新策略。
关键创新:论文最重要的技术创新点在于:1) 利用LLM作为奖励函数:克服了新颖物品缺乏用户反馈的问题,使得模型可以学习到新颖性的概念;2) 降低样本复杂度:将Top-k列表奖励分解为物品级别的奖励,并将状态空间重新定义为<查询,物品>元组,从而将动作空间简化为二元决策,显著降低了RL的样本复杂度。这与传统的直接优化Top-k列表的RL方法有本质区别。
关键设计:关键设计包括:1) LLM奖励函数的设计:需要仔细设计LLM的prompt,使其能够准确评估物品的新颖性和相关性;2) 状态空间和动作空间的定义:状态空间定义为<查询,物品>元组,动作空间定义为二元决策(推荐或不推荐),这种设计显著降低了RL的样本复杂度;3) RL算法的选择:论文使用了合适的RL算法(具体算法未在摘要中提及)来训练代理,使其能够学习到最优的推荐策略。
🖼️ 关键图片
📊 实验亮点
实验结果表明,与基于监督学习的微调方法相比,该方法在查询-广告推荐任务中显著提高了推荐结果的新颖性,同时保持了召回率。在ORCAS查询-网页匹配数据集和Amazon评论数据集上也取得了类似的结果,验证了该方法的有效性和泛化能力。
🎯 应用场景
该研究成果可应用于各种推荐系统,例如电商产品推荐、新闻推荐、广告推荐等。通过提高推荐结果的新颖性,可以提升用户体验,增加用户粘性,并帮助用户发现更多潜在感兴趣的物品。未来,该方法可以进一步扩展到其他推荐场景,例如冷启动推荐、多目标优化推荐等。
📄 摘要(原文)
Given an input query, a recommendation model is trained using user feedback data (e.g., click data) to output a ranked list of items. In real-world systems, besides accuracy, an important consideration for a new model is novelty of its top-k recommendations w.r.t. an existing deployed model. However, novelty of top-k items is a difficult goal to optimize a model for, since it involves a non-differentiable sorting operation on the model's predictions. Moreover, novel items, by definition, do not have any user feedback data. Given the semantic capabilities of large language models, we address these problems using a reinforcement learning (RL) formulation where large language models provide feedback for the novel items. However, given millions of candidate items, the sample complexity of a standard RL algorithm can be prohibitively high. To reduce sample complexity, we reduce the top-k list reward to a set of item-wise rewards and reformulate the state space to consist of
tuples such that the action space is reduced to a binary decision; and show that this reformulation results in a significantly lower complexity when the number of items is large. We evaluate the proposed algorithm on improving novelty for a query-ad recommendation task on a large-scale search engine. Compared to supervised finetuning on recent pairs, the proposed RL-based algorithm leads to significant novelty gains with minimal loss in recall. We obtain similar results on the ORCAS query-webpage matching dataset and a product recommendation dataset based on Amazon reviews.