AgenticRec: End-to-End Tool-Integrated Policy Optimization for Ranking-Oriented Recommender Agents

作者: Tianyi Li, Zixuan Wang, Guidong Lei, Xiaodong Li, Hui Li

分类: cs.IR, cs.AI

发布日期: 2026-03-23

💡 一句话要点

AgenticRec：面向排序的推荐Agent端到端工具集成策略优化

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 推荐系统 大语言模型 强化学习 策略优化 工具集成 排序学习 ReAct循环

📋 核心要点

现有推荐Agent通常存在中间推理与最终排序反馈脱节的问题，难以捕捉细粒度的用户偏好。
AgenticRec通过集成推荐专用工具到ReAct循环中，并使用列表式群体相对策略优化（list-wise GRPO）来优化排序效用。
实验结果表明，AgenticRec在基准数据集上显著优于现有基线方法，证明了该框架的有效性。

📝 摘要（中文）

本文提出AgenticRec，一个面向排序的agentic推荐框架，旨在优化整个决策过程，包括中间推理、工具调用和最终排序列表生成，并利用稀疏隐式反馈。该方法有三个关键贡献：一是设计了一套集成到ReAct循环中的推荐专用工具，以支持基于证据的推理；二是提出了理论上无偏的列表式群体相对策略优化（list-wise GRPO）来最大化排序效用，确保复杂工具使用轨迹的准确信用分配；三是引入了渐进式偏好细化（PPR）来解决细粒度偏好模糊性，通过挖掘排序违规中的困难负样本并应用双向偏好对齐，PPR最小化了成对排序误差的凸上界。在基准数据集上的实验表明，AgenticRec显著优于基线方法，验证了统一推理、工具使用和排序优化的必要性。

🔬 方法详解

问题定义：现有基于大语言模型的推荐Agent在中间推理和最终排序反馈之间存在脱节，无法有效捕捉用户细粒度的偏好。此外，如何将中间推理过程与最终的排序目标对齐，并进行有效的信用分配是一个挑战。

核心思路：AgenticRec的核心思路是将推荐过程建模为一个Agent与环境交互的过程，通过强化学习优化Agent的策略，使其能够更好地利用工具进行推理，并生成高质量的排序列表。关键在于设计合适的工具集、奖励函数和优化算法，以实现推理、工具使用和排序的统一优化。

技术框架：AgenticRec框架基于ReAct循环，包含以下主要模块：1) 工具集：设计了一系列推荐专用工具，例如信息检索、用户画像分析等，用于支持Agent的推理过程。2) ReAct循环：Agent根据当前状态选择动作（工具调用或生成排序列表），环境返回观察结果和奖励。3) 策略优化：使用列表式群体相对策略优化（list-wise GRPO）来更新Agent的策略，最大化排序效用。4) 偏好细化：通过渐进式偏好细化（PPR）来解决细粒度偏好模糊性，提升排序精度。

关键创新：AgenticRec的关键创新在于：1) 端到端优化：首次将中间推理、工具使用和最终排序列表生成统一到一个端到端的优化框架中。2) 列表式GRPO：提出了理论上无偏的列表式群体相对策略优化算法，解决了复杂工具使用轨迹的信用分配问题。3) 渐进式偏好细化：引入了渐进式偏好细化机制，有效解决了细粒度偏好模糊性问题。

关键设计：1) 工具集设计：根据推荐任务的特点，设计了一系列推荐专用工具，例如信息检索、用户画像分析等。2) 奖励函数设计：使用排序效用作为奖励函数，引导Agent生成高质量的排序列表。3) 列表式GRPO：采用优势函数估计和重要性采样技术，实现无偏的策略梯度估计。4) 渐进式偏好细化：通过挖掘排序违规中的困难负样本，并应用双向偏好对齐，最小化成对排序误差的凸上界。

🖼️ 关键图片

📊 实验亮点

实验结果表明，AgenticRec在多个基准数据集上显著优于现有基线方法。例如，在某个数据集上，AgenticRec的NDCG@10指标提升了超过10%。这些结果验证了AgenticRec框架的有效性，证明了统一推理、工具使用和排序优化的必要性。

🎯 应用场景

AgenticRec可应用于各种推荐场景，例如电商推荐、新闻推荐、视频推荐等。通过利用Agent的推理能力和工具使用能力，可以更好地理解用户需求，生成更个性化、更符合用户偏好的推荐列表。该研究有助于提升推荐系统的效果和用户体验，并为未来的推荐系统研究提供新的思路。

📄 摘要（原文）

Recommender agents built on Large Language Models offer a promising paradigm for recommendation. However, existing recommender agents typically suffer from a disconnect between intermediate reasoning and final ranking feedback, and are unable to capture fine-grained preferences. To address this, we present AgenticRec, a ranking-oriented agentic recommendation framework that optimizes the entire decision-making trajectory (including intermediate reasoning, tool invocation, and final ranking list generation) under sparse implicit feedback. Our approach makes three key contributions. First, we design a suite of recommendation-specific tools integrated into a ReAct loop to support evidence-grounded reasoning. Second, we propose theoretically unbiased List-Wise Group Relative Policy Optimization (list-wise GRPO) to maximize ranking utility, ensuring accurate credit assignment for complex tool-use trajectories. Third, we introduce Progressive Preference Refinement (PPR) to resolve fine-grained preference ambiguities. By mining hard negatives from ranking violations and applying bidirectional preference alignment, PPR minimizes the convex upper bound of pairwise ranking errors. Experiments on benchmarks confirm that AgenticRec significantly outperforms baselines, validating the necessity of unifying reasoning, tool use, and ranking optimization.

AgenticRec: End-to-End Tool-Integrated Policy Optimization for Ranking-Oriented Recommender Agents

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理