ReRec: Reasoning-Augmented LLM-based Recommendation Assistant via Reinforcement Fine-tuning

作者: Jiani Huang, Shijie Wang, Liangbo Ning, Wenqi Fan, Qing Li

分类: cs.IR, cs.AI

发布日期: 2026-04-09

备注: Accepted by ACL 2026

🔗 代码/项目: GITHUB

💡 一句话要点

提出ReRec，通过强化微调增强LLM在推荐任务中的推理能力

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 推荐系统 大型语言模型 强化学习 推理增强 奖励塑造

📋 核心要点

现有基于LLM的推荐系统在多步推理能力上存在不足，难以处理复杂的推荐任务。
ReRec通过强化微调框架，利用双图增强奖励塑造、推理感知优势估计和在线课程调度器来提升LLM的推理能力。
实验结果表明，ReRec在推荐性能上优于现有方法，同时保持了LLM的指令遵循和通用知识能力。

📝 摘要（中文）

随着大型语言模型（LLM）的兴起，对能够处理复杂查询并提供个性化、推理驱动的推荐的智能推荐助手的需求日益增长。基于LLM的推荐器显示出潜力，但在多步推理方面面临挑战，突出了对推理增强系统的需求。为了解决这一差距，我们提出了一种新颖的强化微调（RFT）框架ReRec，旨在提高LLM在复杂推荐任务中的推理能力。我们的框架引入了三个关键组件：（1）双图增强奖励塑造，将NDCG@K等推荐指标与查询对齐和偏好对齐分数相结合，为LLM优化提供细粒度的奖励信号；（2）推理感知优势估计，将LLM输出分解为推理段，并惩罚不正确的步骤，以增强推荐的推理能力；（3）在线课程调度器，动态评估查询难度并组织训练课程，以确保RFT期间的稳定学习。实验表明，ReRec优于最先进的基线，并保留了指令遵循和一般知识等核心能力。我们的代码可在https://github.com/jiani-huang/ReRec 获取。

🔬 方法详解

问题定义：论文旨在解决LLM在复杂推荐任务中推理能力不足的问题。现有的LLM推荐系统难以进行多步推理，无法有效地处理需要深度理解用户偏好和物品属性的复杂查询，导致推荐质量不高。

核心思路：论文的核心思路是通过强化学习微调LLM，使其能够更好地进行推理。具体来说，通过设计合适的奖励函数和训练策略，引导LLM学习正确的推理步骤，从而提高推荐的准确性和个性化程度。

技术框架：ReRec框架包含三个主要模块：1) 双图增强奖励塑造（Dual-Graph Enhanced Reward Shaping）：利用用户-物品交互图和知识图谱，结合推荐指标（如NDCG@K）以及查询对齐和偏好对齐分数，生成细粒度的奖励信号。2) 推理感知优势估计（Reasoning-aware Advantage Estimation）：将LLM的输出分解为多个推理步骤，并对每个步骤进行评估，惩罚错误的步骤，从而增强LLM的推理能力。3) 在线课程调度器（Online Curriculum Scheduler）：根据查询的难度动态调整训练课程，确保LLM在强化学习过程中能够稳定学习。

关键创新：ReRec的关键创新在于将强化学习与LLM相结合，并设计了针对推荐任务的奖励函数和训练策略。双图增强奖励塑造能够提供更准确的奖励信号，推理感知优势估计能够引导LLM学习正确的推理步骤，在线课程调度器能够提高训练的稳定性。

关键设计：在双图增强奖励塑造中，查询对齐和偏好对齐分数的计算方式未知。推理感知优势估计中，如何将LLM的输出分解为推理步骤，以及如何评估每个步骤的正确性，具体实现未知。在线课程调度器中，如何衡量查询的难度，以及如何动态调整训练课程，具体实现未知。

🖼️ 关键图片

📊 实验亮点

实验结果表明，ReRec在多个推荐数据集上优于现有的基于LLM的推荐方法。具体来说，ReRec在NDCG@K等指标上取得了显著提升，表明其能够更准确地预测用户的偏好。此外，实验还验证了ReRec能够保持LLM的指令遵循和通用知识能力。

🎯 应用场景

ReRec可应用于各种需要复杂推理的推荐场景，例如电商、在线教育、旅游等。它可以帮助用户更快地找到他们真正需要的商品或服务，提高用户满意度和平台转化率。未来，ReRec可以扩展到其他需要推理能力的自然语言处理任务中，例如问答系统、对话系统等。

📄 摘要（原文）

With the rise of LLMs, there is an increasing need for intelligent recommendation assistants that can handle complex queries and provide personalized, reasoning-driven recommendations. LLM-based recommenders show potential but face challenges in multi-step reasoning, underscoring the need for reasoning-augmented systems. To address this gap, we propose ReRec, a novel reinforcement fine-tuning (RFT) framework designed to improve LLM reasoning in complex recommendation tasks. Our framework introduces three key components: (1) Dual-Graph Enhanced Reward Shaping, integrating recommendation metrics like NDCG@K with Query Alignment and Preference Alignment Scores to provide fine-grained reward signals for LLM optimization; (2) Reasoning-aware Advantage Estimation, which decomposes LLM outputs into reasoning segments and penalizes incorrect steps to enhance reasoning of recommendation; and (3) Online Curriculum Scheduler, dynamically assess query difficulty and organize training curriculum to ensure stable learning during RFT. Experiments demonstrate that ReRec outperforms state-of-the-art baselines and preserves core abilities like instruction-following and general knowledge. Our codes are available at https://github.com/jiani-huang/ReRec.

ReRec: Reasoning-Augmented LLM-based Recommendation Assistant via Reinforcement Fine-tuning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理