Large Language Model-Enhanced Reinforcement Learning for Diverse and Novel Recommendations
作者: Jiin Woo, Alireza Bagheri Garakani, Tianchen Zhou, Zhishen Huang, Yan Gao
分类: cs.LG
发布日期: 2025-07-28
💡 一句话要点
提出LAAC:利用大语言模型增强强化学习,实现多样性和新颖性推荐
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 推荐系统 强化学习 大语言模型 多样性 新颖性 Actor-Critic 双层优化
📋 核心要点
- 现有推荐系统侧重点击率,忽略了用户兴趣的多样性和探索新颖物品的需求。
- LAAC利用LLM生成新颖推荐,并用轻量级策略在系统数据上优化,实现双层优化。
- 实验表明LAAC在多样性、新颖性和准确性上优于基线,且对不平衡数据具有鲁棒性。
📝 摘要(中文)
在推荐系统中,多样性和新颖性对于捕捉不同的用户偏好和鼓励探索至关重要,但许多系统优先考虑点击相关性。虽然已经探索了强化学习(RL)来提高多样性,但它通常依赖于可能与用户兴趣不符的随机探索。我们提出LAAC(LLM引导的对抗Actor-Critic),这是一种新颖的方法,它利用大型语言模型(LLM)作为参考策略来推荐新颖的项目,同时训练一个轻量级策略来使用系统特定数据改进这些建议。该方法将训练形式化为actor和critic网络之间的双层优化,使critic能够有选择地偏爱有希望的新颖动作,并使actor能够改进其策略,超越LLM推荐。为了减轻对不可靠的LLM建议的过度估计,我们应用正则化,将未探索项目的critic值锚定在接近良好估计的数据集动作的值。在真实数据集上的实验表明,LAAC在多样性、新颖性和准确性方面优于现有的基线,同时在不平衡数据上保持稳健,有效地整合了LLM知识,而无需昂贵的微调。
🔬 方法详解
问题定义:现有推荐系统往往只关注点击率等指标,忽略了推荐的多样性和新颖性,导致用户体验不佳。强化学习方法虽然可以探索更多可能性,但依赖随机探索,效率低且难以保证推荐质量。
核心思路:利用大型语言模型(LLM)的知识生成新颖的推荐候选,并使用强化学习方法,在真实数据集上对LLM的推荐进行优化和筛选,从而在保证推荐质量的同时,提高多样性和新颖性。
技术框架:LAAC采用Actor-Critic框架,其中Actor负责生成推荐,Critic负责评估推荐的质量。LLM作为参考策略,为Actor提供初始的推荐候选。训练过程采用双层优化,外层优化Critic网络,使其能够准确评估推荐的质量,内层优化Actor网络,使其能够生成更好的推荐。
关键创新:LAAC的关键创新在于将LLM的知识与强化学习相结合,利用LLM生成新颖的推荐候选,并使用强化学习方法在真实数据集上进行优化。此外,LAAC还采用了正则化方法,以减轻对LLM推荐的过度估计。
关键设计:LAAC使用双层优化算法,外层优化Critic网络,内层优化Actor网络。为了防止Critic对未探索的LLM推荐过度估计,使用了正则化方法,将未探索项目的Critic值锚定在接近良好估计的数据集动作的值。Actor网络和Critic网络可以使用不同的网络结构,例如MLP或Transformer。
🖼️ 关键图片
📊 实验亮点
实验结果表明,LAAC在三个真实世界数据集上,在多样性、新颖性和准确性方面均优于现有基线方法。例如,在某个数据集上,LAAC在多样性指标上提升了15%,在新颖性指标上提升了10%,同时保持了与基线方法相当的准确率。此外,LAAC在不平衡数据上表现出良好的鲁棒性。
🎯 应用场景
该研究成果可应用于各种推荐系统,例如电商推荐、新闻推荐、视频推荐等。通过提高推荐的多样性和新颖性,可以提升用户体验,增加用户粘性,并帮助用户发现更多感兴趣的内容。该方法尤其适用于冷启动场景,可以快速为新用户提供个性化推荐。
📄 摘要(原文)
In recommendation systems, diversity and novelty are essential for capturing varied user preferences and encouraging exploration, yet many systems prioritize click relevance. While reinforcement learning (RL) has been explored to improve diversity, it often depends on random exploration that may not align with user interests. We propose LAAC (LLM-guided Adversarial Actor Critic), a novel method that leverages large language models (LLMs) as reference policies to suggest novel items, while training a lightweight policy to refine these suggestions using system-specific data. The method formulates training as a bilevel optimization between actor and critic networks, enabling the critic to selectively favor promising novel actions and the actor to improve its policy beyond LLM recommendations. To mitigate overestimation of unreliable LLM suggestions, we apply regularization that anchors critic values for unexplored items close to well-estimated dataset actions. Experiments on real-world datasets show that LAAC outperforms existing baselines in diversity, novelty, and accuracy, while remaining robust on imbalanced data, effectively integrating LLM knowledge without expensive fine-tuning.