RLHF Fine-Tuning of LLMs for Alignment with Implicit User Feedback in Conversational Recommenders

作者: Zhongheng Yang, Aijia Sun, Yushang Zhao, Yinuo Yang, Dannier Li, Chengrui Zhou

分类: cs.LG

发布日期: 2025-08-07

💡 一句话要点

提出基于强化学习的LLM微调方法，利用隐式用户反馈优化对话式推荐系统

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 对话式推荐系统 强化学习 人类反馈 大型语言模型 隐式反馈 策略优化 用户满意度

📋 核心要点

传统监督微调无法捕捉对话式推荐系统中用户隐式反馈信号，如停留时间、情感极性或参与模式。
利用人类反馈强化学习（RLHF）微调LLM，通过奖励模型最大化隐式用户反馈，优化用户效用。
在真实数据集上验证，RLHF微调模型在推荐准确性、连贯性和用户满意度方面优于传统方法。

📝 摘要（中文）

本文提出了一种利用人类反馈强化学习（RLHF）微调大型语言模型（LLM）的解决方案，旨在最大化多轮推荐场景中的隐式用户反馈（IUF）。该方法通过学习弱标记的交互信息来构建奖励模型$R_φ$，并通过近端策略优化（PPO）方法优化基础LLM $M_θ$，从而最大化以用户为中心的效用。该架构模拟了对话状态转移 $s_t o a_t o s_{t +1}$，其中动作$a_t$仅在过去对话历史的条件下与LLM生成的项目建议相关联。在合成和真实世界数据集（例如REDIAL，OpenDialKG）上的评估表明，与传统监督微调方法相比，经过RLHF微调的模型在top-$k$推荐准确性、连贯性和用户满意度方面表现更好。该研究表明，隐式信号对齐可以有效地实现CRS的可扩展和用户自适应设计。

🔬 方法详解

问题定义：对话式推荐系统（CRS）需要不断适应用户偏好，以提供令人满意的、与上下文相关的项目推荐。然而，传统的监督微调方法难以捕捉用户隐式反馈信号，例如停留时间、情感极性和参与模式等。这些隐式信号包含了用户对推荐结果的真实态度，而忽略这些信号会导致推荐效果不佳。

核心思路：本文的核心思路是利用强化学习，特别是基于人类反馈的强化学习（RLHF），来微调大型语言模型（LLM），从而使模型能够更好地理解和利用用户的隐式反馈信号。通过构建一个奖励模型，该模型能够根据用户的隐式反馈对推荐结果进行评分，然后利用强化学习算法优化LLM的策略，使其能够生成更符合用户偏好的推荐结果。

技术框架：整体框架包含三个主要部分：LLM（策略模型）、奖励模型和强化学习优化算法。首先，LLM根据对话历史生成推荐动作（即推荐的物品）。然后，用户与推荐系统交互，产生隐式反馈信号。奖励模型根据这些隐式反馈信号对LLM的推荐动作进行评分，生成奖励信号。最后，强化学习优化算法（例如PPO）利用这些奖励信号来更新LLM的策略，使其能够生成更高奖励的推荐动作。对话状态转移建模为$s_t o a_t o s_{t +1}$。

关键创新：该论文的关键创新在于将RLHF应用于对话式推荐系统，并利用隐式用户反馈作为奖励信号。与传统的监督微调方法相比，该方法能够更好地捕捉用户的真实偏好，从而提高推荐效果。此外，该方法还提出了一种有效的奖励模型构建方法，能够根据弱标记的交互信息学习到准确的奖励信号。

关键设计：奖励模型 $R_φ$ 的设计至关重要，它需要能够准确地评估推荐结果的质量，并将其转化为奖励信号。论文中，奖励模型是基于弱标记的参与信息学习得到的。具体的技术细节包括：如何选择合适的隐式反馈信号，如何对这些信号进行预处理，以及如何设计奖励模型的网络结构和损失函数。此外，PPO算法中的一些关键参数，例如学习率、clip ratio等，也需要仔细调整，以保证训练的稳定性和收敛性。

📊 实验亮点

实验结果表明，经过RLHF微调的模型在真实数据集（REDIAL, OpenDialKG）上，top-$k$推荐准确性、连贯性和用户满意度方面均优于传统的监督微调方法。具体的性能提升数据在论文中给出，证明了该方法的有效性。

🎯 应用场景

该研究成果可应用于各种对话式推荐系统，例如电商平台的智能客服、音乐或视频应用的个性化推荐等。通过利用隐式用户反馈，可以提升推荐的准确性和用户满意度，从而提高用户粘性和平台收益。未来，该方法还可以扩展到其他需要与用户进行交互的AI系统中，例如智能助手、聊天机器人等。

📄 摘要（原文）

Conversational recommender systems (CRS) based on Large Language Models (LLMs) need to constantly be aligned to the user preferences to provide satisfying and context-relevant item recommendations. The traditional supervised fine-tuning cannot capture the implicit feedback signal, e.g., dwell time, sentiment polarity, or engagement patterns. In this paper, we share a fine-tuning solution using human feedback reinforcement learning (RLHF) to maximize implied user feedback (IUF) in a multi-turn recommendation context. We specify a reward model $R_φ$ learnt on weakly-labelled engagement information and maximize user-centric utility by optimizing the foundational LLM M_θ through a proximal policy optimization (PPO) approach. The architecture models conversational state transitions $s_t \to a_t \to s_{t +1}$, where the action $a_t$ is associated with LLM-generated item suggestions only on condition of conversation history in the past. The evaluation across synthetic and real-world datasets (e.g.REDIAL, OpenDialKG) demonstrates that our RLHF-fine-tuned models can perform better in terms of top-$k$ recommendation accuracy, coherence, and user satisfaction compared to (arrow-zero-cmwrquca-teja-falset ensuite 2Round group-deca States penalty give up This paper shows that implicit signal alignment can be efficient in achieving scalable and user-adaptive design of CRS.

RLHF Fine-Tuning of LLMs for Alignment with Implicit User Feedback in Conversational Recommenders

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理