USB-Rec: An Effective Framework for Improving Conversational Recommendation Capability of Large Language Model
作者: Jianyu Wen, Jingyun Wang, Cilin Yan, Jiayin Cai, Xiaolong Jiang, Ying Zhang
分类: cs.CL, cs.AI
发布日期: 2025-09-20
备注: Accepted by Recsys'25
💡 一句话要点
提出USB-Rec框架,提升大语言模型在对话推荐系统中的训练与推理能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 对话推荐系统 大语言模型 强化学习 用户模拟器 偏好优化
📋 核心要点
- 现有基于LLM的对话推荐系统方法主要侧重于利用LLM的总结和分析能力,忽略了模型训练的重要性。
- USB-Rec框架通过用户模拟器构建偏好优化数据集,并结合强化学习训练,使LLM更好地理解对话推荐策略。
- 实验结果表明,USB-Rec在多个数据集上均优于现有最佳方法,验证了其有效性。
📝 摘要(中文)
本文提出了一种名为User-Simulator-Based framework (USB-Rec) 的集成式训练-推理框架,旨在提升大语言模型(LLMs)在对话推荐系统(CRSs)中的性能。与现有方法主要侧重于利用LLMs的总结和分析能力不同,USB-Rec关注模型训练本身。首先,设计了一种基于LLM的偏好优化(PO)数据集构建策略,用于强化学习训练,帮助LLMs理解对话推荐中的策略和方法。其次,在推理阶段提出了一种自增强策略(SES),以进一步挖掘通过强化学习训练获得的对话推荐潜力。在多个数据集上的大量实验表明,该方法始终优于以往的state-of-the-art方法。
🔬 方法详解
问题定义:现有基于大语言模型的对话推荐系统方法,主要依赖于利用LLM的固有能力(如总结、分析),而忽略了针对对话推荐场景的专门训练。这导致LLM在理解用户偏好、制定推荐策略等方面存在不足,限制了其性能的进一步提升。
核心思路:USB-Rec的核心思路是通过强化学习训练,使LLM能够更好地理解和执行对话推荐策略。具体来说,通过用户模拟器生成训练数据,并利用偏好优化(PO)方法,引导LLM学习如何根据用户反馈调整推荐策略。同时,在推理阶段采用自增强策略(SES),进一步挖掘模型在训练阶段获得的对话推荐能力。
技术框架:USB-Rec框架包含两个主要阶段:训练阶段和推理阶段。在训练阶段,首先利用LLM生成用户模拟器,模拟用户与推荐系统的交互过程。然后,基于用户模拟器生成偏好优化(PO)数据集,用于强化学习训练。在推理阶段,采用自增强策略(SES),通过多轮对话,逐步优化推荐结果。
关键创新:USB-Rec的关键创新在于其集成了训练和推理两个阶段,并针对对话推荐场景设计了专门的训练策略。与现有方法相比,USB-Rec不仅利用了LLM的固有能力,还通过强化学习训练,使其能够更好地适应对话推荐任务。此外,自增强策略(SES)的引入,进一步提升了模型的推理性能。
关键设计:在偏好优化(PO)数据集构建中,利用LLM生成用户模拟器,并根据用户模拟器的反馈,调整推荐策略。强化学习训练采用标准的策略梯度算法,目标是最大化用户满意度。自增强策略(SES)通过多轮对话,逐步优化推荐结果,具体实现方式未知(论文未详细描述)。
📊 实验亮点
实验结果表明,USB-Rec在多个对话推荐数据集上均取得了显著的性能提升,超越了现有的state-of-the-art方法。具体的性能提升幅度未知(论文未提供具体数值),但总体趋势表明,USB-Rec能够有效提升LLM在对话推荐任务中的表现。
🎯 应用场景
USB-Rec框架可应用于各种对话推荐系统,例如电商平台的智能客服、音乐或视频应用的个性化推荐等。通过提升LLM在对话推荐中的性能,可以提高用户满意度,增加用户粘性,并最终促进业务增长。该研究为构建更智能、更个性化的对话推荐系统提供了新的思路。
📄 摘要(原文)
Recently, Large Language Models (LLMs) have been widely employed in Conversational Recommender Systems (CRSs). Unlike traditional language model approaches that focus on training, all existing LLMs-based approaches are mainly centered around how to leverage the summarization and analysis capabilities of LLMs while ignoring the issue of training. Therefore, in this work, we propose an integrated training-inference framework, User-Simulator-Based framework (USB-Rec), for improving the performance of LLMs in conversational recommendation at the model level. Firstly, we design a LLM-based Preference Optimization (PO) dataset construction strategy for RL training, which helps the LLMs understand the strategies and methods in conversational recommendation. Secondly, we propose a Self-Enhancement Strategy (SES) at the inference stage to further exploit the conversational recommendation potential obtained from RL training. Extensive experiments on various datasets demonstrate that our method consistently outperforms previous state-of-the-art methods.