Shielded RecRL: Explanation Generation for Recommender Systems without Ranking Degradation
作者: Ansh Tiwari, Ayush Chauhan
分类: cs.IR, cs.LG
发布日期: 2025-10-14
💡 一句话要点
提出Shielded RecRL,在不降低排序性能的前提下为推荐系统生成解释
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 推荐系统 解释生成 强化学习 近端策略优化 语言模型 个性化推荐 点击率提升
📋 核心要点
- 现有基于强化学习的推荐方法通常直接优化物品排序,可能导致原始推荐排序性能下降。
- Shielded RecRL采用双塔架构,保持推荐排序模型不变,利用强化学习训练语言模型生成解释,避免影响排序。
- 实验表明,Shielded RecRL在提升点击率的同时,保持了推荐系统的排序性能,并有效平衡了解释质量和策略漂移。
📝 摘要(中文)
本文提出Shielded RecRL,一种强化学习方法,旨在为推荐系统生成个性化解释,同时不牺牲系统原有的排序性能。与直接优化物品排序的基于RLHF的推荐方法不同,我们的双塔架构保持推荐系统的排序模型不变,而语言模型则学习生成有用的解释。我们设计了一个复合奖励信号,结合了解释长度、内容相关性和连贯性,并应用带有KL散度约束的近端策略优化(PPO),通过LoRA适配器微调大型语言模型,仅训练其0.4%的参数。在Amazon Books数据集(奇幻和浪漫类型中约50K次交互)上的实验表明,Shielded RecRL将相对点击率(CTR)提高了22.5%(是基线的1.225倍),同时几乎保持了推荐系统的物品排序行为不变。广泛的消融研究证实,我们的梯度屏蔽策略和奖励设计有效地平衡了解释质量和策略漂移。我们的结果表明,Shielded RecRL通过丰富、个性化的解释增强了推荐面向用户的方面,而不会降低核心推荐准确性。
🔬 方法详解
问题定义:现有基于强化学习的推荐系统解释生成方法,通常会直接优化物品的排序,这可能导致原始推荐系统的排序性能下降。因此,如何在生成高质量解释的同时,保持甚至提升原始推荐系统的排序性能是一个关键问题。
核心思路:Shielded RecRL的核心思路是将解释生成与推荐排序解耦。通过保持原有的推荐排序模型不变,并利用一个独立的语言模型来生成解释,从而避免了直接优化排序带来的负面影响。这种“屏蔽”策略保证了解释生成过程不会干扰推荐系统的核心功能。
技术框架:Shielded RecRL采用双塔架构。第一塔是原有的推荐排序模型,负责生成物品的排序结果。第二塔是一个语言模型,负责根据用户和物品的信息生成解释。两个塔分别进行训练,语言模型的训练目标是生成高质量的解释,同时不影响推荐排序模型的性能。语言模型使用Proximal Policy Optimization (PPO)算法进行训练。
关键创新:Shielded RecRL的关键创新在于其梯度屏蔽策略,即保持推荐排序模型参数不变,只训练语言模型。此外,该方法还设计了一个复合奖励信号,综合考虑了解释的长度、内容相关性和连贯性,以引导语言模型生成更优质的解释。使用LoRA适配器,仅训练语言模型0.4%的参数,大大降低了训练成本。
关键设计:复合奖励信号的设计是关键。解释长度奖励鼓励生成足够详细的解释;内容相关性奖励确保解释与用户和物品相关;连贯性奖励保证解释的流畅和易懂。PPO算法中的KL散度约束用于限制策略漂移,防止语言模型过度优化解释生成,从而影响推荐排序模型的性能。LoRA适配器的使用使得在大型语言模型上进行微调成为可能,同时降低了计算成本。
📊 实验亮点
在Amazon Books数据集上的实验表明,Shielded RecRL在保持推荐系统排序性能不变的情况下,将相对点击率(CTR)提高了22.5%(是基线的1.225倍)。消融实验验证了梯度屏蔽策略和复合奖励设计的有效性,证明了该方法能够在解释质量和策略漂移之间取得良好的平衡。
🎯 应用场景
Shielded RecRL可应用于各种推荐系统,例如电商、视频平台、新闻推荐等,提升用户体验。通过提供个性化解释,帮助用户理解推荐理由,增强用户信任感和满意度,最终提高用户转化率和平台活跃度。该方法还可用于提升推荐系统的透明度和可解释性,满足监管要求。
📄 摘要(原文)
We introduce Shielded RecRL, a reinforcement learning approach to generate personalized explanations for recommender systems without sacrificing the system's original ranking performance. Unlike prior RLHF-based recommender methods that directly optimize item rankings, our two-tower architecture keeps the recommender's ranking model intact while a language model learns to produce helpful explanations. We design a composite reward signal combining explanation length, content relevance, and coherence, and apply proximal policy optimization (PPO) with a KL-divergence constraint to fine-tune a large language model with only 0.4% of its parameters trainable via LoRA adapters. In experiments on an Amazon Books dataset (approximately 50K interactions in the fantasy and romance genres), Shielded RecRL improved the relative click-through rate (CTR) by 22.5% (1.225x over baseline) while keeping the recommender's item-ranking behavior virtually unchanged. An extensive ablation study confirms that our gradient shielding strategy and reward design effectively balance explanation quality and policy drift. Our results demonstrate that Shielded RecRL enhances user-facing aspects of recommendations through rich, personalized explanations without degrading core recommendation accuracy.