ReCast: Recasting Learning Signals for Reinforcement Learning in Generative Recommendation

📄 arXiv: 2604.22169v1 📥 PDF

作者: Peiyan Zhang, Hanmo Liu, Chengxuan Tong, Yuxia Wu, Wei Guo, Yong Liu

分类: cs.LG, cs.AI, cs.IR

发布日期: 2026-04-24


💡 一句话要点

ReCast:在生成式推荐中重塑强化学习信号,解决稀疏反馈下的学习难题。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 生成式推荐 强化学习 稀疏奖励 对比学习 学习信号重塑

📋 核心要点

  1. 现有基于群组的强化学习方法在稀疏反馈的生成式推荐中表现不佳,因为大量采样群组无法提供有效的学习信号。
  2. ReCast 框架通过修复全零群组的可学习性,并采用对比学习更新策略,从而有效利用稀疏反馈。
  3. 实验结果表明,ReCast 在多个生成式推荐任务中显著优于现有方法,并在性能、效率和资源利用率方面均有提升。

📝 摘要(中文)

通用的基于群组的强化学习假设采样的 rollout 群组是可用的学习信号。然而,在稀疏命中的生成式推荐中,这种假设不成立,许多采样的群组根本无法学习。我们提出了 ReCast,一个修复-对比学习信号框架,它首先恢复全零群组的最小可学习性,然后用聚焦边界的对比更新替换全群组奖励归一化,该对比更新作用于最强的正样本和最难的负样本。ReCast 不改变外部强化学习框架,仅修改群组内的信号构建,并将 rollout 搜索宽度与 actor 侧更新宽度部分解耦。在多个生成式推荐任务中,ReCast 始终优于 OpenOneRec-RL,在 Pass@1 上实现了高达 36.6% 的相对改进。其匹配预算优势更大:ReCast 仅用 4.1% 的 rollout 预算就达到了基线的目标性能,并且这种优势随着模型规模的扩大而扩大。相同的设计也产生了直接的系统级收益,将 actor 侧更新时间减少了 16.60 倍,降低了峰值分配内存 16.5%,并将 actor MFU 提高了 14.2%。机制分析表明,ReCast 缓解了持续的全零/单次命中状态,在自然正样本稀缺时恢复了可学习性,并将原本浪费的 rollout 预算转化为更稳定的策略更新。这些结果表明,对于生成式推荐,决定性的强化学习问题不仅是如何分配奖励,而是如何从稀疏的结构化监督中构建可学习的优化事件。

🔬 方法详解

问题定义:在生成式推荐系统中,传统的基于群组的强化学习方法面临着稀疏反馈的问题。具体来说,许多采样的推荐物品组合(rollout groups)可能没有产生任何用户交互(例如点击),导致奖励信号为零,无法进行有效的策略学习。现有方法难以有效利用这些“全零”或“单次命中”的群组,造成了计算资源的浪费和学习效率的低下。

核心思路:ReCast 的核心思路是“重塑”学习信号,使其更具信息量,即使在稀疏反馈的情况下也能进行有效的策略更新。它通过两个关键步骤实现:首先,修复(Repair)全零群组,赋予其最小的可学习性;其次,对比(Contrast)学习,聚焦于最强的正样本和最难的负样本,从而更有效地利用有限的反馈信息。这种设计旨在将原本浪费的 rollout 预算转化为更稳定的策略更新。

技术框架:ReCast 框架可以嵌入到现有的基于群组的强化学习流程中,而无需修改外部的强化学习框架。其主要包含两个阶段:1) 修复阶段:对于奖励为零的群组,通过某种机制(例如,基于模型预测或启发式规则)赋予其一个小的正奖励,使其具有最小的可学习性。2) 对比学习阶段:不再使用传统的全群组奖励归一化,而是采用对比学习的方式,选择群组中最强的正样本和最难的负样本,并基于它们之间的差异进行策略更新。

关键创新:ReCast 的关键创新在于其对学习信号的重塑,它不再简单地依赖于原始的奖励信号,而是通过修复和对比的方式,主动地构建更具信息量的学习信号。这种方法能够有效应对稀疏反馈带来的挑战,并提高学习效率。此外,ReCast 将 rollout 搜索宽度与 actor 侧更新宽度部分解耦,允许更灵活的资源分配。

关键设计:ReCast 的关键设计包括:1) 修复策略:如何有效地修复全零群组,赋予其最小的可学习性,例如,可以使用一个辅助模型来预测群组的潜在价值,并基于该预测结果赋予奖励。2) 对比学习目标:如何选择最强的正样本和最难的负样本,并设计合适的对比损失函数,例如,可以使用 margin-based 的损失函数,鼓励正样本的得分高于负样本,并设置一个 margin 来控制学习的难度。3) 超参数设置:例如,修复奖励的大小、对比学习的 margin 值等,需要根据具体的任务进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

ReCast 在多个生成式推荐任务中取得了显著的性能提升。例如,在 Pass@1 指标上,ReCast 相比 OpenOneRec-RL 取得了高达 36.6% 的相对改进。更重要的是,ReCast 仅用 4.1% 的 rollout 预算就达到了基线的性能水平,表明其具有更高的学习效率。此外,ReCast 还显著降低了 actor 侧的更新时间(16.60 倍)和峰值内存占用(16.5%),并提高了 actor MFU(14.2%),表明其具有更好的系统级性能。

🎯 应用场景

ReCast 框架可应用于各种生成式推荐场景,例如电商推荐、音乐推荐、视频推荐等。它尤其适用于用户行为稀疏的冷启动场景,能够有效提高推荐系统的性能和用户体验。此外,该框架的设计思想也可以推广到其他强化学习任务中,例如机器人控制、游戏 AI 等,以解决稀疏奖励带来的学习难题。

📄 摘要(原文)

Generic group-based RL assumes that sampled rollout groups are already usable learning signals. We show that this assumption breaks down in sparse-hit generative recommendation, where many sampled groups never become learnable at all. We propose ReCast, a repair-then-contrast learning-signal framework that first restores minimal learnability for all-zero groups and then replaces full-group reward normalization with a boundary-focused contrastive update on the strongest positive and the hardest negative. ReCast leaves the outer RL framework unchanged, modifies only within-group signal construction, and partially decouples rollout search width from actor-side update width. Across multiple generative recommendation tasks, ReCast consistently outperforms OpenOneRec-RL, achieving up to 36.6% relative improvement in Pass@1. Its matched-budget advantage is substantially larger: ReCast reaches the baseline's target performance with only 4.1% of the rollout budget, and this advantage widens with model scale. The same design also yields direct system-level gains, reducing actor-side update time by 16.60x, lowering peak allocated memory by 16.5%, and improving actor MFU by 14.2%. Mechanism analysis shows that ReCast mitigates the persistent all-zero / single-hit regime, restores learnability when natural positives are scarce, and converts otherwise wasted rollout budget into more stable policy updates. These results suggest that, for generative recommendation, the decisive RL problem is not only how to assign rewards, but how to construct learnable optimization events from sparse, structured supervision.