ReRec: Reasoning-Augmented LLM-based Recommendation Assistant via Reinforcement Fine-tuning
作者: Jiani Huang, Shijie Wang, Liangbo Ning, Wenqi Fan, Qing Li
分类: cs.IR, cs.AI
发布日期: 2026-04-09
备注: Accepted by ACL 2026
🔗 代码/项目: GITHUB
💡 一句话要点
提出ReRec,通过强化微调增强LLM在推荐任务中的推理能力
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 推荐系统 大型语言模型 强化学习 推理增强 奖励塑造
📋 核心要点
- 现有基于LLM的推荐系统在多步推理能力上存在不足,难以处理复杂的推荐任务。
- ReRec通过强化微调框架,利用双图增强奖励塑造、推理感知优势估计和在线课程调度器来提升LLM的推理能力。
- 实验结果表明,ReRec在推荐性能上优于现有方法,同时保持了LLM的指令遵循和通用知识能力。
📝 摘要(中文)
随着大型语言模型(LLM)的兴起,对能够处理复杂查询并提供个性化、推理驱动的推荐的智能推荐助手的需求日益增长。基于LLM的推荐器显示出潜力,但在多步推理方面面临挑战,突出了对推理增强系统的需求。为了解决这一差距,我们提出了一种新颖的强化微调(RFT)框架ReRec,旨在提高LLM在复杂推荐任务中的推理能力。我们的框架引入了三个关键组件:(1)双图增强奖励塑造,将NDCG@K等推荐指标与查询对齐和偏好对齐分数相结合,为LLM优化提供细粒度的奖励信号;(2)推理感知优势估计,将LLM输出分解为推理段,并惩罚不正确的步骤,以增强推荐的推理能力;(3)在线课程调度器,动态评估查询难度并组织训练课程,以确保RFT期间的稳定学习。实验表明,ReRec优于最先进的基线,并保留了指令遵循和一般知识等核心能力。我们的代码可在https://github.com/jiani-huang/ReRec 获取。
🔬 方法详解
问题定义:论文旨在解决LLM在复杂推荐任务中推理能力不足的问题。现有的LLM推荐系统难以进行多步推理,无法有效地处理需要深度理解用户偏好和物品属性的复杂查询,导致推荐质量不高。
核心思路:论文的核心思路是通过强化学习微调LLM,使其能够更好地进行推理。具体来说,通过设计合适的奖励函数和训练策略,引导LLM学习正确的推理步骤,从而提高推荐的准确性和个性化程度。
技术框架:ReRec框架包含三个主要模块:1) 双图增强奖励塑造(Dual-Graph Enhanced Reward Shaping):利用用户-物品交互图和知识图谱,结合推荐指标(如NDCG@K)以及查询对齐和偏好对齐分数,生成细粒度的奖励信号。2) 推理感知优势估计(Reasoning-aware Advantage Estimation):将LLM的输出分解为多个推理步骤,并对每个步骤进行评估,惩罚错误的步骤,从而增强LLM的推理能力。3) 在线课程调度器(Online Curriculum Scheduler):根据查询的难度动态调整训练课程,确保LLM在强化学习过程中能够稳定学习。
关键创新:ReRec的关键创新在于将强化学习与LLM相结合,并设计了针对推荐任务的奖励函数和训练策略。双图增强奖励塑造能够提供更准确的奖励信号,推理感知优势估计能够引导LLM学习正确的推理步骤,在线课程调度器能够提高训练的稳定性。
关键设计:在双图增强奖励塑造中,查询对齐和偏好对齐分数的计算方式未知。推理感知优势估计中,如何将LLM的输出分解为推理步骤,以及如何评估每个步骤的正确性,具体实现未知。在线课程调度器中,如何衡量查询的难度,以及如何动态调整训练课程,具体实现未知。
🖼️ 关键图片
📊 实验亮点
实验结果表明,ReRec在多个推荐数据集上优于现有的基于LLM的推荐方法。具体来说,ReRec在NDCG@K等指标上取得了显著提升,表明其能够更准确地预测用户的偏好。此外,实验还验证了ReRec能够保持LLM的指令遵循和通用知识能力。
🎯 应用场景
ReRec可应用于各种需要复杂推理的推荐场景,例如电商、在线教育、旅游等。它可以帮助用户更快地找到他们真正需要的商品或服务,提高用户满意度和平台转化率。未来,ReRec可以扩展到其他需要推理能力的自然语言处理任务中,例如问答系统、对话系统等。
📄 摘要(原文)
With the rise of LLMs, there is an increasing need for intelligent recommendation assistants that can handle complex queries and provide personalized, reasoning-driven recommendations. LLM-based recommenders show potential but face challenges in multi-step reasoning, underscoring the need for reasoning-augmented systems. To address this gap, we propose ReRec, a novel reinforcement fine-tuning (RFT) framework designed to improve LLM reasoning in complex recommendation tasks. Our framework introduces three key components: (1) Dual-Graph Enhanced Reward Shaping, integrating recommendation metrics like NDCG@K with Query Alignment and Preference Alignment Scores to provide fine-grained reward signals for LLM optimization; (2) Reasoning-aware Advantage Estimation, which decomposes LLM outputs into reasoning segments and penalizes incorrect steps to enhance reasoning of recommendation; and (3) Online Curriculum Scheduler, dynamically assess query difficulty and organize training curriculum to ensure stable learning during RFT. Experiments demonstrate that ReRec outperforms state-of-the-art baselines and preserves core abilities like instruction-following and general knowledge. Our codes are available at https://github.com/jiani-huang/ReRec.