Generative Reasoning Re-ranker
作者: Mingfu Liang, Yufei Li, Jay Xu, Kavosh Asadi, Xi Liu, Shuo Gu, Kaushik Rangadurai, Frank Shyu, Shuaiwen Wang, Song Yang, Zhijing Li, Jiang Liu, Mengying Sun, Fei Tian, Xiaohan Wei, Chonglin Sun, Jacob Tao, Shike Mei, Wenlin Chen, Santanu Kolay, Sandeep Pandey, Hamed Firooz, Luke Simon
分类: cs.IR, cs.AI
发布日期: 2026-02-08 (更新: 2026-02-22)
备注: 31 pages
💡 一句话要点
提出生成式推理重排序器(GR2),利用强化学习提升LLM在推荐系统中的重排序性能。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 推荐系统 大型语言模型 重排序 强化学习 生成式推理 语义ID DAPO
📋 核心要点
- 现有基于LLM的推荐系统侧重检索和排序,忽略了重排序阶段,且未充分利用LLM的推理能力。
- GR2通过三阶段训练流程,利用语义ID编码、高质量推理轨迹和强化学习,提升LLM的重排序性能。
- 实验表明,GR2在Recall@5和NDCG@5上分别提升2.4%和1.3%,证明了高级推理轨迹和奖励设计的有效性。
📝 摘要(中文)
本文提出生成式推理重排序器(GR2),旨在解决现有基于LLM的推荐系统在重排序阶段的不足。现有方法主要集中在检索和排序,忽略了重排序的重要性,且未能充分利用LLM的推理能力,尤其是在强化学习和高质量推理数据方面的潜力。此外,使用非语义ID表示物品导致工业级系统中存在可扩展性问题。GR2采用三阶段训练流程:首先,通过tokenizer将非语义ID编码为语义ID,并对预训练LLM进行mid-training;然后,利用精心设计的prompt和拒绝采样,生成高质量的推理轨迹,用于监督微调,赋予LLM基础推理能力;最后,应用解耦剪辑和动态采样策略优化(DAPO),实现可扩展的强化学习监督。在两个真实数据集上的实验表明,GR2优于当前最佳方法OneRec-Think,Recall@5提升2.4%,NDCG@5提升1.3%。消融实验验证了高级推理轨迹带来的显著收益。研究还发现,强化学习奖励设计在重排序中至关重要,需要条件可验证奖励来缓解LLM利用奖励漏洞的行为,从而优化重排序性能。
🔬 方法详解
问题定义:现有基于LLM的推荐系统主要关注检索和排序,而忽略了重排序阶段,这对于最终推荐结果的质量至关重要。此外,现有方法通常采用zero-shot或监督微调,未能充分挖掘LLM的推理能力,特别是通过强化学习和高质量推理数据增强的推理能力。同时,工业界常用的非语义ID表示物品,导致系统在处理数十亿级别ID时面临巨大的可扩展性挑战。
核心思路:GR2的核心思路是构建一个端到端的生成式推理重排序框架,通过三个阶段的训练,逐步提升LLM的重排序能力。首先,将非语义ID转换为语义ID,解决可扩展性问题。然后,利用高质量的推理轨迹进行监督微调,赋予LLM基础的推理能力。最后,通过强化学习优化重排序策略,使其能够更好地根据用户偏好对候选物品进行排序。
技术框架:GR2的整体框架包含三个主要阶段: 1. Mid-training: 使用tokenizer将非语义ID编码为语义ID,并在预训练LLM上进行训练,使其能够理解和处理语义ID。 2. Supervised Fine-tuning: 通过精心设计的prompt和拒绝采样,生成高质量的推理轨迹,并使用这些轨迹对LLM进行监督微调,使其具备基础的推理能力。 3. Reinforcement Learning: 应用解耦剪辑和动态采样策略优化(DAPO),利用专门为重排序设计的可验证奖励,对LLM进行强化学习训练,优化其重排序策略。
关键创新:GR2的关键创新在于以下几个方面: 1. 语义ID编码: 将非语义ID转换为语义ID,解决了工业级推荐系统中的可扩展性问题。 2. 高质量推理轨迹生成: 通过prompt设计和拒绝采样,生成高质量的推理轨迹,为LLM的监督微调提供了高质量的数据。 3. 解耦剪辑和动态采样策略优化(DAPO): 采用DAPO算法进行强化学习,提高了训练的稳定性和效率。 4. 条件可验证奖励: 设计了条件可验证奖励,缓解了LLM在强化学习过程中利用奖励漏洞的行为,从而优化了重排序性能。
关键设计: 1. Tokenizer: 使用tokenizer将非语义ID编码为语义ID,目标是达到≥99%的唯一性。 2. Prompt设计: 精心设计prompt,引导LLM生成高质量的推理轨迹。 3. 拒绝采样: 使用拒绝采样方法,筛选出高质量的推理轨迹。 4. DAPO算法: 使用DAPO算法进行强化学习,具体参数设置未知。 5. 条件可验证奖励: 设计条件可验证奖励,具体形式未知,用于防止LLM通过保持物品顺序来获得高奖励。
📊 实验亮点
实验结果表明,GR2在两个真实数据集上均取得了显著的性能提升。相较于当前最佳方法OneRec-Think,GR2在Recall@5上提升了2.4%,在NDCG@5上提升了1.3%。消融实验进一步验证了高级推理轨迹和强化学习奖励设计的有效性。研究还发现,条件可验证奖励能够有效缓解LLM利用奖励漏洞的行为,从而优化重排序性能。
🎯 应用场景
GR2具有广泛的应用前景,可应用于电商、视频、新闻等领域的推荐系统,提升用户体验和平台收益。通过利用LLM的推理能力和强化学习优化,GR2能够更准确地理解用户偏好,并推荐更符合用户需求的物品。未来,GR2可以进一步扩展到其他推荐场景,例如冷启动推荐、多目标优化推荐等,具有重要的实际价值和深远的影响。
📄 摘要(原文)
Recent studies increasingly explore Large Language Models (LLMs) as a new paradigm for recommendation systems due to their scalability and world knowledge. However, existing work has three key limitations: (1) most efforts focus on retrieval and ranking, while the reranking phase, critical for refining final recommendations, is largely overlooked; (2) LLMs are typically used in zero-shot or supervised fine-tuning settings, leaving their reasoning abilities, especially those enhanced through reinforcement learning (RL) and high-quality reasoning data, underexploited; (3) items are commonly represented by non-semantic IDs, creating major scalability challenges in industrial systems with billions of identifiers. To address these gaps, we propose the Generative Reasoning Reranker (GR2), an end-to-end framework with a three-stage training pipeline tailored for reranking. First, a pretrained LLM is mid-trained on semantic IDs encoded from non-semantic IDs via a tokenizer achieving $\ge$99% uniqueness. Next, a stronger larger-scale LLM generates high-quality reasoning traces through carefully designed prompting and rejection sampling, which are used for supervised fine-tuning to impart foundational reasoning skills. Finally, we apply Decoupled Clip and Dynamic sAmpling Policy Optimization (DAPO), enabling scalable RL supervision with verifiable rewards designed specifically for reranking. Experiments on two real-world datasets demonstrate GR2's effectiveness: it surpasses the state-of-the-art OneRec-Think by 2.4% in Recall@5 and 1.3% in NDCG@5. Ablations confirm that advanced reasoning traces yield substantial gains across metrics. We further find that RL reward design is crucial in reranking: LLMs tend to exploit reward hacking by preserving item order, motivating conditional verifiable rewards to mitigate this behavior and optimize reranking performance.