An Extremely Data-efficient and Generative LLM-based Reinforcement Learning Agent for Recommenders
作者: Shuang Feng, Grace Feng
分类: cs.LG, cs.AI, cs.IR
发布日期: 2024-08-28
💡 一句话要点
提出基于生成式LLM的强化学习推荐Agent,实现数据高效训练
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 推荐系统 强化学习 大型语言模型 数据高效 生成式模型 WebShop PPO DPO
📋 核心要点
- 工业推荐系统依赖深度学习模型预测点击或购买,但难以优化长期客户满意度,需要强化学习。
- 利用LLM理解网页上下文、产品细节和人类指令,作为强化学习的奖励模型或策略,是解决该问题的有效途径。
- 实验表明,在生成轨迹上训练的Agent与在人工轨迹上训练的Agent性能相当,DPO Agent在有限时间内取得了显著的成功率。
📝 摘要(中文)
本文提出了一种基于大型语言模型(LLM)的强化学习(RL)推荐系统Agent,旨在最大化长期客户满意度,避免短期目标。该方法利用预训练的BERT模型,通过微调学习用户偏好,并采用Proximal Policy Optimization (PPO) 和 Direct Preference Optimization (DPO) 等先进训练技术。研究使用WebShop基准环境进行评估,结果表明,在生成轨迹上训练的Agent与在人工轨迹上训练的Agent表现相当,验证了一种数据高效的训练方法。实验结果显示,DPO Agent在T4 GPU上经过约3000步或30分钟的训练后,成功率达到19%,而PPO Agent的成功率为15%。
🔬 方法详解
问题定义:现有推荐系统通常基于深度学习模型预测短期点击或购买行为,缺乏对长期用户满意度的优化。强化学习可以解决这个问题,但传统强化学习方法需要大量数据,成本高昂。因此,如何利用有限的数据训练出高性能的推荐Agent是一个关键问题。
核心思路:本文的核心思路是利用大型语言模型(LLM)的生成能力,生成高质量的训练轨迹,从而降低对人工标注数据的依赖。通过在生成轨迹上训练强化学习Agent,可以实现数据高效的训练,降低训练成本。
技术框架:该方法基于预训练的BERT模型,并采用强化学习算法进行微调。整体流程包括:1) 使用LLM生成训练轨迹;2) 使用生成的轨迹训练强化学习Agent,例如PPO或DPO;3) 在WebShop模拟环境中评估Agent的性能。该框架避免了对大量人工标注数据的依赖,降低了训练成本。
关键创新:最重要的技术创新点在于利用生成式LLM来生成训练数据,从而实现数据高效的强化学习。与传统的强化学习方法相比,该方法不需要大量的人工标注数据,降低了训练成本。此外,该方法还探索了不同的强化学习算法(PPO和DPO)在推荐系统中的应用。
关键设计:在训练过程中,使用了Proximal Policy Optimization (PPO) 和 Direct Preference Optimization (DPO) 等先进的强化学习算法。PPO通过限制策略更新的幅度来保证训练的稳定性,DPO则直接优化策略,避免了对奖励模型的依赖。此外,还使用了Thompson sampling进行评估,以更准确地估计Agent的性能。
📊 实验亮点
实验结果表明,在生成轨迹上训练的Agent与在人工轨迹上训练的Agent表现相当,验证了数据高效性。DPO Agent在T4 GPU上经过约3000步或30分钟的训练后,成功率达到19%,而PPO Agent的成功率为15%。这表明DPO算法在推荐系统中具有更好的性能。
🎯 应用场景
该研究成果可应用于各种在线推荐系统,例如电商、新闻推荐、视频推荐等。通过利用LLM生成训练数据,可以降低推荐系统的训练成本,提高推荐效果。此外,该方法还可以应用于其他需要数据高效训练的强化学习任务,例如机器人控制、自动驾驶等。
📄 摘要(原文)
Recent advancements in large language models (LLMs) have enabled understanding webpage contexts, product details, and human instructions. Utilizing LLMs as the foundational architecture for either reward models or policies in reinforcement learning has gained popularity -- a notable achievement is the success of InstructGPT. RL algorithms have been instrumental in maximizing long-term customer satisfaction and avoiding short-term, myopic goals in industrial recommender systems, which often rely on deep learning models to predict immediate clicks or purchases. In this project, several RL methods are implemented and evaluated using the WebShop benchmark environment, data, simulator, and pre-trained model checkpoints. The goal is to train an RL agent to maximize the purchase reward given a detailed human instruction describing a desired product. The RL agents are developed by fine-tuning a pre-trained BERT model with various objectives, learning from preferences without a reward model, and employing contemporary training techniques such as Proximal Policy Optimization (PPO) as used in InstructGPT, and Direct Preference Optimization (DPO). This report also evaluates the RL agents trained using generative trajectories. Evaluations were conducted using Thompson sampling in the WebShop simulator environment. The simulated online experiments demonstrate that agents trained on generated trajectories exhibited comparable task performance to those trained using human trajectories. This has demonstrated an example of an extremely low-cost data-efficient way of training reinforcement learning agents. Also, with limited training time (<2hours), without utilizing any images, a DPO agent achieved a 19% success rate after approximately 3000 steps or 30 minutes of training on T4 GPUs, compared to a PPO agent, which reached a 15% success rate.