MaRCA: Multi-Agent Reinforcement Learning for Dynamic Computation Allocation in Large-Scale Recommender Systems

作者: Wan Jiang, Xinyi Zang, Yudong Zhao, Yusi Zou, Yunfei Lu, Junbo Tong, Yang Liu, Ming Li, Jiani Shi, Xin Yang

分类: cs.IR, cs.LG, cs.MA

发布日期: 2025-12-30

备注: 12 pages, 5 figures

💡 一句话要点

MaRCA：基于多智能体强化学习的大规模推荐系统动态计算资源分配

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture)

关键词: 推荐系统 多智能体强化学习 计算资源分配 模型预测控制 收益优化

📋 核心要点

现有推荐系统计算资源分配方法忽略了多阶段间的依赖关系，难以达到全局最优，导致资源利用率不高。
MaRCA将推荐系统各阶段建模为智能体，利用多智能体强化学习进行端到端优化，实现全局计算资源分配。
MaRCA在实际电商平台的广告系统中部署，处理海量请求，并在现有资源下实现了显著的收入提升。

📝 摘要（中文）

现代推荐系统面临着日益增长的模型复杂度和流量规模带来的巨大计算挑战，因此高效的计算资源分配对于最大化商业收入至关重要。现有方法通常简化多阶段计算资源分配，忽略了阶段间的依赖关系，从而限制了全局最优性。本文提出了一种用于大规模推荐系统中端到端计算资源分配的多智能体强化学习框架MaRCA。MaRCA将推荐系统的各个阶段建模为合作智能体，使用集中式训练和分散式执行（CTDE）来优化计算资源约束下的收入。我们引入了一个AutoBucket TestBench用于精确的计算成本估计，以及一个基于模型预测控制（MPC）的收益-成本平衡器，以主动预测流量负载并相应地调整收益-成本权衡。自2024年11月在一个全球领先的电子商务平台的广告管道中进行端到端部署以来，MaRCA始终如一地处理着每天数千亿的广告请求，并在现有计算资源下实现了16.67%的收入提升。

🔬 方法详解

问题定义：论文旨在解决大规模推荐系统中动态计算资源分配的问题。现有方法通常将多阶段资源分配简化，忽略了阶段间的依赖关系，导致无法实现全局最优的资源利用和收益最大化。此外，准确的计算成本估计和流量负载预测也是现有方法面临的挑战。

核心思路：论文的核心思路是将推荐系统的各个阶段建模为合作智能体，利用多智能体强化学习（MARL）进行端到端的优化。通过集中式训练和分散式执行（CTDE）框架，每个智能体可以根据全局信息和局部观测做出决策，从而实现全局最优的资源分配。同时，引入AutoBucket TestBench进行准确的计算成本估计，并使用基于模型预测控制（MPC）的收益-成本平衡器来主动预测流量负载。

技术框架：MaRCA的整体框架包含以下几个主要模块：1) 多智能体环境建模：将推荐系统的各个阶段建模为智能体，每个智能体负责分配其所在阶段的计算资源。2) 集中式训练分散式执行（CTDE）：使用CTDE框架进行智能体的训练，集中式训练器可以访问全局信息，帮助智能体学习最优策略，分散式执行器则根据局部观测做出决策。3) AutoBucket TestBench：用于精确估计不同计算配置下的计算成本。4) 模型预测控制（MPC）收益-成本平衡器：用于预测未来的流量负载，并根据预测结果调整收益-成本的权衡。

关键创新：MaRCA的关键创新在于：1) 端到端的多智能体强化学习框架：将整个推荐系统建模为一个多智能体系统，通过强化学习进行全局优化，克服了传统方法中阶段间依赖关系被忽略的问题。2) AutoBucket TestBench：提供了一种精确的计算成本估计方法，可以帮助智能体更好地进行资源分配。3) 模型预测控制（MPC）收益-成本平衡器：通过预测未来的流量负载，可以主动调整收益-成本的权衡，从而更好地适应动态变化的环境。与现有方法的本质区别在于，MaRCA能够进行全局优化，并能够适应动态变化的环境。

关键设计：在多智能体强化学习方面，论文采用了Actor-Critic架构，其中Critic网络使用全局信息进行训练，Actor网络则根据局部观测做出决策。奖励函数的设计需要平衡收益和成本，论文采用了一种基于收益-成本比率的奖励函数。AutoBucket TestBench的具体实现细节未知，但其核心思想是通过实验来测量不同计算配置下的计算成本。MPC收益-成本平衡器的具体实现细节也未知，但其核心思想是利用历史数据预测未来的流量负载，并根据预测结果调整收益-成本的权衡。

🖼️ 关键图片

📊 实验亮点

MaRCA在一个全球领先的电子商务平台的广告管道中进行了端到端部署，处理着每天数千亿的广告请求。实验结果表明，MaRCA在现有计算资源下实现了16.67%的收入提升，证明了其在实际应用中的有效性。

🎯 应用场景

MaRCA适用于各种大规模推荐系统，尤其是在广告推荐、商品推荐等需要动态调整计算资源分配的场景。通过优化计算资源分配，可以显著提升推荐系统的收益，降低计算成本，并提高用户体验。该研究的成果可以应用于电子商务、在线广告、内容分发等领域，具有广阔的应用前景。

📄 摘要（原文）

Modern recommender systems face significant computational challenges due to growing model complexity and traffic scale, making efficient computation allocation critical for maximizing business revenue. Existing approaches typically simplify multi-stage computation resource allocation, neglecting inter-stage dependencies, thus limiting global optimality. In this paper, we propose MaRCA, a multi-agent reinforcement learning framework for end-to-end computation resource allocation in large-scale recommender systems. MaRCA models the stages of a recommender system as cooperative agents, using Centralized Training with Decentralized Execution (CTDE) to optimize revenue under computation resource constraints. We introduce an AutoBucket TestBench for accurate computation cost estimation, and a Model Predictive Control (MPC)-based Revenue-Cost Balancer to proactively forecast traffic loads and adjust the revenue-cost trade-off accordingly. Since its end-to-end deployment in the advertising pipeline of a leading global e-commerce platform in November 2024, MaRCA has consistently handled hundreds of billions of ad requests per day and has delivered a 16.67% revenue uplift using existing computation resources.

MaRCA: Multi-Agent Reinforcement Learning for Dynamic Computation Allocation in Large-Scale Recommender Systems

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理